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Operating System Design The Xinu Approach, Linksys Version 


本 书 以 Xinu ( 一 个 小 型 简洁 的 操作 系统 ) 为 例 ， 全 面 介绍 操作 系统 设计 方面 的 知识 。 本 书 着 重 讨 
OI UE UR 
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本 书 从 底层 机 器 开始 ,一 步 步 地 设计 和 实现 一 个 小 型 但 优雅 的 操作 系统 Xinu， 指 导读 者 通过 实用 、 
简单 的 原 语 来 构造 传统 的 基于 进程 的 操作 系统 。 本 书 回顾 了 主要 的 系统 组 件 ， 并 利用 分 层 设计 范式 ， 以 
一 种 有 序 、 易 于 理解 的 方式 组 织 内 容 。 

作者 的 网 站 www.xinu.cs.purdue.edu 提 供 了 便于 学 生 搭建 实验 环境 的 软件 和 资料 。 


ABA | 
e 解释 每 个 操作 系统 质 象 的 产生 ， 展 示 如 何 通 过 简洁 高 效 的 设计 来 组 织 这 些 抽象 6 
e 层 层 剥离 系统 的 每 一 层 ;- 从 原始 硬件 到 可 运行 的 操作 系统 
€ 涵盖 系统 的 每 一 部 分 ， 这 样 读者 看 到 的 不 是 一 两 个 部 分 如 何 交 互 ， 而 是 整个 系统 如 何 组 合 在 一 起 。 
e 提供 文中 描述 的 所 有 部 分 的 源 代码 ， 方 便 读者 检查 、 修 改 、 工 具 化 、 测 量 、 扩 展 或 者 将 其 移植 到 其 
他 架构 。 
e 阐明 操作 系统 的 每 一 部 分 是 如 何 满足 设计 的 ， 以 帮助 读者 理解 可 选 的 设计 方案 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 臂 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 站 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 王选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hoperoft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍 
藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@ hzbook. com 
联系 电话 : (010) 88379604 

x à T 华章 教育 
a 1 了 学 华章 科技 图 书 出 版 中 心 
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一 一 像 小 孩 那 样 学 习 
我 实在 告诉 你 们 ， 你 们 若 不 回转 ， 变 成 小 孩 的 样式 ， 断 不 得 进 天 国 。 
一 一 马 太 福音 18: 3 


这 是 耶稣 教训 门徒 所 说 的 话 。 虽 然 讲 的 是 天 国 的 事情 ， 但 不 经 意 间 也 指出 了 一 条 学 习 的 路 径 。 众 
所 周知 ， 小 孩 接受 新 鲜 事 物 的 能 力 非常 强 ， 小 孩 能 够 随 着 时 间 的 推移 而 不 知 不 觉 地 学 会 说 话 和 日 常 的 
生活 规则 ， 而 成 人 学 习 一 门 新 语言 或 一 种 新 技能 则 通常 较为 困难 。 

小 孩 对 语言 或 技能 的 掌握 是 在 成 人 所 说 所 行 的 点 滴 中 先行 模仿 然后 再 悟 出 的 ， 也 就 是 通过 模仿 从 
琐 细 中 理 出 了 头绪 。 小 孩 的 这 种 学 习 方 法 是 一 种 典型 的 先 实 际 后 理解 、 先 细节 后 全 景 、 从 只 见 树木 到 
顿 见 森 林 的 转变 。 这 与 成 人 所 惯常 采用 的 学 习 方 式 有 很 大 不 同 。 成 人 采用 的 学 习 方 法 通常 是 先 理论 后 
实践 、 先 全 貌 后 细节 、 先 森林 后 树木 式 的 由 高 至 低 逐 步 推 进 的 方式 。 这 在 大 学 的 “操作 系统 ”课程 学 
习 中 体现 得 十 分 明显 。 一 般 大 学 的 普遍 做 法 是 先 介绍 操作 系统 的 全 貌 ， 然 后 介绍 操作 系统 的 个 体 组 成 
部 分 ， 再 附加 一 些 动手 实验 ， 所 谓 通 过 实验 加 深 对 理论 的 理解 (其 他 课程 的 学 习 方式 也 大 同 小 异 )。 
此 种 模式 是 一 种 典型 的 自 项 向 下 的 演绎 模式 ， 由 于 其 由 来 已 入 ， 人 们 已 经 习以为常 ,并 没有 想 过 有 什 
么 不 妥 。 但 操作 系统 及 许多 大 学 课程 教学 中 所 呈现 的 事实 是 ， 很 多 人 对 其 感到 枯燥 难 懂 ， 难 以 掌握 。 

既然 如 此 ， 为 什么 不 试 试 另 一 种 学 习 模式 ， 即 先 动手 后 理解 、 先 细节 后 抽象 、 由 树木 到 森林 ， 像 
小 孩 一 样 来 学 习 操 作 系统 或 其 他 专业 课程 呢 ? 对 于 操作 系统 来 说 ， 完 全 可 以 采用 由 底 至 上 的 方法 ， 先 
不 讲 操作 系统 理论 和 模型 ， 而 是 先 来 实际 设计 一 个 计算 机 的 内 存 管理 系统 ， 在 动手 实践 中 逐渐 抽象 出 
规律 ， 然 后 上 升 为 理论 和 模型 。 在 讨论 完 内 存 管理 之 后 再 来 阐述 如 何 调度 程序 ， 这 样 逐 次 推进 ， 最 后 
搭 起 整个 操作 系统 。 这 就 像 把 一 大 堆积 木 呈 现 给 读者 ， 先 措 起 一 个 长 方 体 ， 然 后 搭 起 几 个 轮子 ， 再 拱 
上 一 些 窗户 ， 最 终 ， 一 辆 汽车 就 形成 了 。 

本 书 所 采取 的 正 是 由 底 至 上 、 由 动手 到 理论 、 由 具体 到 抽象 、 由 细节 到 整体 、 由 树木 到 森林 的 学 
习 模式 来 前 述 操作 系统 的 原理 和 设计 。 该 书 以 细节 为 核心 ， 以 设计 与 实现 为 手段 ， 通 过 设计 和 实现 操 
作 系 统 的 各 种 功能 来 引入 操作 系统 的 原理 和 模型 ， 并 以 设计 人 员 在 构建 一 个 操作 系统 时 所 遵循 的 工作 
次 序 来 组 织 全书 。 该 书 从 一 个 裸 机 开始 ， 一 步 一 步 地 设计 和 实现 一 个 小 型 但 优雅 的 操作 系统 
本 书 每 一 章 描 述 设计 Xinu 系统 架构 里 的 一 个 组 件 ， 并 提供 示例 软件 来 演示 该 层 架 构 所 提供 的 功能 。 这 
种 与 传统 模式 的 截然 不 同 让 人 一 开始 有 些 反感 ,但 在 体会 了 此 种 方式 的 美妙 后 又 会 忱 然 大 悟 。 

该 书 的 最 大 特点 是 实践 性 强 ， 以 与 实际 情况 非常 贴切 的 场景 为 背景 ， 以 动手 操作 为 推手 ， 以 实际 
代码 为 讨论 对 象 ， 将 操作 系统 的 各 种 实战 原理 和 模式 娓 娓 道 来 ， 易 于 理解 和 消化 。 读 者 只 要 顺 着 书 的 
讲解 ， 并 配合 运行 和 分 析 其 附带 的 代码 ， 即 可 掌握 操作 系统 的 设计 和 实现 。 该 书 在 美国 普度 大 学 所 受 
到 的 青睐 从 一 个 侧面 佐证 了 这 一 点 。 

本 书 适用 于 高 年 级 的 本 科 生 或 低 年 级 的 研究 生 ， 也 适用 于 那些 想 了 解 操 作 系 统 的 计算 机 从 业 人 员 。 
鉴于 该 书 的 篇 幅 和 所 涉及 的 具体 动手 实现 ， 建 议 分 配 4 个 学 分 或 以 上 来 组 织 本 门 课程 。 另 外 ， 考 虑 到 
并 不 是 所 有 人 都 喜爱 先 细节 后 抽象 的 模式 ， 建 议 与 一 本 优良 的 阐述 操作 系统 原理 的 书 结合 进行 讲授 ， 
效果 或 将 更 加 令 人 满意 。 

本 书 由 上 海 交通 大 学 2012 年 春季 高 级 操作 系统 课程 组 集体 翻译 ， 因 人 员 众 多 ， 就 不 一 一 列 出 。 在 
此 特 向 对 本 书 翻译 提供 帮助 的 人 员 表 示 感 谢 。 

鉴于 译 者 水 平 所 限 ， 书 中 丝 漏 甚至 错误 在 所 难免 ， 遵 望 读 者 不 音 指正 。 
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建造 计算 机 操作 系统 有 点 像 编织 锦 级 。 这 两 种 工作 的 最 终 成 品 都 是 一 个 和 谐 一 致 、 大 型 、 复 杂 的 
人 造 系统 。 在 每 一 种 情况 下 ， 最 后 的 人 造成 品 都 是 由 细微 但 却 精巧 的 步骤 所 构造 。 在 编织 锦 级 时 ， 细 
节 是 至 关 重 要 的 ， 因 为 一 点 点 不 协调 的 涉 疲 都 很 容易 观察 到 。 就 像 锦 组 里 的 组 面 一 样 ， 加 入 到 操作 系 
统 里 的 每 个 新 组 件 都 需要 与 整体 的 设计 相 协调 。 从 这 个 角度 看 ， 将 不 同 片段 组 装 起 来 的 机 械 加 工 只 是 
整个 建造 过 程 中 的 一 小 部 分 ， 一 个 大 师 级 的 产品 必须 以 某 个 模式 为 蓝本 ， 所 有 参与 系统 设计 的 工作 人 
员 都 必须 遵守 这 种 模式 。 

有 讽刺 意味 的 是 ， 现 有 的 操作 系统 教材 或 课程 很 少 对 底层 的 模式 和 原理 进行 解释 ， 而 这 些 模式 和 
原理 正 是 操作 系统 构造 的 基础 。 在 学 生 看 来 : 操作 系统 似乎 是 一 个 暗箱 ， 而 现 有 的 教材 则 加 强 了 这 种 
误解 ， 因 为 这 些 教材 所 解释 的 不 过 是 操作 系统 的 功能 ， 其 关注 的 也 只 是 操作 系统 各 种 能 力 的 使 用 。 更 
为 重要 的 是 ， 学 生 在 学 习 操 作 系 统 时 采取 的 是 从 操作 系统 外 面 来 察看 的 方式 ， 从 而 常常 导致 这 样 一 种 
感觉 : 认为 操作 系统 由 一 组 抽象 的 界面 所 组 成 ， 这 些 界 面 下 的 功能 由 一 大 堆 上 汲 神秘 的 代码 连接 在 一 
起 ， 而 这 些 神 秘 的 代码 本 身 还 包含 着 许多 与 机 器 硬件 直接 相关 的 、 无 规律 可 寻 的 奇 技巧 术 。 

令 人 人 惊奇 的 是 ， 学 生 一 旦 从 大 学 毕业 ， 就 马上 觉得 与 操作 系统 有 关 的 工作 已 经 结束 ， 自 己 不 再 需 
要 理解 或 学 习 操作 系统 ， 因 为 由 商业 公司 和 开源 社区 所 构造 的 现 有 操作 系统 足以 应 付 各 种 需要 ， 没 有 
自己 什么 事情 了 。 但 没有 什么 比 这 种 想法 离 真理 更 远 了 。 有 讽刺 意味 的 是 ， 尽 管 为 个 人 计算 机 设计 传 
统 操作 系统 的 公司 数量 比 以 前 更 少 了 ， 但 社会 和 行业 对 操作 系统 技能 的 需求 却 在 增长 ， 许 多 公司 雇佣 
大 学 生来 从 事 操 作 系 统 方面 的 工作 。 社 会 上 这 些 对 操作 系统 技能 的 需求 来 源 于 更 便宜 的 微 处 理 器 ， 这 
些 便 宜 的 微 处 理 器 移入 在 智能 手机 、 视 频 游戏 、iPod、Internet 路 由 器 、 线 缆 和 机 顶 盒 以 及 打印 机 中 。 

在 与 嵌 人 式 系统 打交道 时 ， 有 关 原 理 和 结构 的 知识 非常 关键 ， 因 为 程序 员 可 能 需要 在 现 有 的 操作 
系统 内 部 构造 某 种 或 某 个 新 的 机 制 ， 或 者 对 现 有 操作 系统 进行 修改 以 便 可 以 在 新 的 硬件 平台 上 运行 。 
而 且 ， 为 庶 和 人 式 设备 编写 应 用 程序 时 需要 理解 下 层 的 操作 系统 。 如 果 不 理解 操作 系统 设计 的 各 种 细微 
之 处 ， 则 不 可 能 充分 利用 这 些小 型 府 人 式 处 理 器 的 能 力 。 

本 书 的 目的 是 揭 开 操作 系统 设计 中 的 神秘 感 ， 将 方方面面 的 材料 整合 为 一 个 系统 化 的 整体 。 本 书 
对 操作 系统 的 主要 系统 组 件 进行 了 详细 阐述 ， 并 以 一 种 层次 架构 的 设计 范式 来 组 织 这 些 组 件 ， 从 而 以 
一 种 有 序 、 可 理解 的 方式 来 展开 这 些 内 容 。 与 其 他 评述 性 书籍 不 同 的 是 ， 本 书 并 不 尽 可 能 多 地 提供 不 
同方 案 ， 呈 现 给 读者 的 将 是 一 个 基于 传统 过 程 的 、 使 用 实际 的 、 直 截 了 当 的 原 语 所 构造 的 操作 系统 。 
本 书 从 一 个 裸 机 开始 ， 一 步 一 步 地 设计 和 实现 一 个 小 型 但 优雅 的 操作 系统 。 这 个 称 为 Xinu 的 操作 系统 
将 成 为 系统 设计 的 样板 和 模式 。 

虽然 Xinu 操作 系统 的 规模 较 小 ， 可 以 完全 容纳 在 本 书 中 ,但 该 系统 却 包括 了 构成 一 个 普通 操作 系 
统 的 全 部 组 件 : 内 存 管 理 、 进 程 管理 、 进 程 协 调和 同步 、 进 程 间 通 信 、 实 时 时 钟 管理 、 设 备 独立 的 输 
和 人 输出、 设备 驱动 、 网 络 协 议和 一 个 文件 系统 。 本 书 将 这 些 组 件 组 织 成 一 个 层次 架构 ， 使 它们 之 间 的 
相互 连接 清晰 可 见 、 设 计 过 程 浅 显 易 懂 。 尽 管 规模 小 ,但 Xin 却 拥有 大 型 系统 的 能 力 。 此 外 ，Xinu 并 
不 是 一 个 玩具 系统 ， 它 在 很 多 商业 产品 中 得 到 了 应 用 。 使 用 该 系统 的 厂商 包括 Mitsubishi、Lexmark、 
HP, IBM, Woodward (woodward. com) , Barnard Software 和 Mantissa 公司 。 学 生 通 过 本 书 可 以 学 到 的 重 
要 一 课 是 : 不 管 是 小 型 府 人 式 系统 还 是 大 型 系统 ， 好 的 系统 设计 都 一 样 重要 ， 一 个 系统 的 大 部 分 能 力 
都 来 自 于 良好 的 抽象 。 

本 书 所 覆盖 的 所 有 议题 都 以 一 种 特定 的 次 序 排列 ， 这 种 次 序 就 是 设计 人 员 在 构建 操作 系统 时 所 遵 
守 的 工作 次 序 。 本 书 每 一 章 描述 设计 架构 里 的 一 个 组 件 ， 并 提供 示例 软件 来 演示 由 该 层 架 构 所 提供 的 
功能 。 使 用 这 种 方式 具有 如 下 几 种 优点 : 第 一 ， 每 一 章 所 解释 的 操作 系统 的 功能 子 集 均 比 上 一 章 所 讨 
论 的 功能 子 集 更 大 ， 这 种 安排 使 我 们 在 考虑 一 层 特定 架构 的 设计 和 实现 时 不 用 关心 后 续 层 面 的 实现 。 
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第 二 ， 每 一 章 的 细节 描述 在 第 一 次 阅读 时 可 以 跳 过 去 ， 读 者 只 需要 理解 该 层 所 提供 的 服务 即 可 ， 而 不 
是 这 些 服 务 是 如 何 实 现 的 。 第 三 ， 如 果 按 次 序 阅 读本 书 ， 读 者 可 以 先 理 解 一 个 功能 ， 然 后 在 后 面 看 到 
该 功能 是 如 何 被 后 续 部 分 所 使 用 的 。 第 四 ， 有 智力 挑战 的 议题 (如 对 并 发 的 支持 ) 出 现在 书 的 较 前 
面 ， 高 层次 的 操作 系统 服务 则 出 现在 后 面 。 在 本 书 中 ， 读 者 将 看 到 大 部 分 核心 的 功能 仅仅 只 用 几 行 代 
码 就 可 以 完成 ， 这 样 我 们 就 可 以 将 大 部 分 的 代码 〈 网 络 和 文件 系统 ) 放 到 书 的 较 后 面 ， 在 读者 已 经 做 
出 了 充分 的 思想 准备 后 再 进行 讲解 。 

如 前 所 述 ， 与 其 他 关于 操作 系统 的 许多 书 不 一 样 的 是 ， 本 书 并 不 试图 对 每 个 系统 组 件 的 每 种 实现 
方案 进行 评 佑 ， 也 不 对 现 有 的 商业 系统 进行 综述 。 而 是 选择 对 一 组 使 用 最 广泛 的 操作 系统 原 语 的 实现 
细节 进行 阐述 。 例 如 ， 在 讨论 进程 协调 的 一 章 ， 我 们 解释 的 是 信号 量 〈 使 用 最 广泛 的 进程 协调 原 语 ) 
原 语 ， 而 对 其 他 原 语 (如 监视 器 ) 的 讨论 则 放 到 练习 里 。 我 们 的 目的 是 展示 如 何 将 原 语 在 传统 的 硬件 
上 实现 ， 消 除 神秘 。 学 生 一 旦 理解 了 一 组 特定 原 语 的 魔力 ， 其 他 原 语 的 实现 也 就 容易 掌握 了 。 

本 书 的 示例 代码 可 以 运行 在 Linksys E2100L 无 线路 由 器 上 ， 该 无 线路 由 器 在 零售 商店 里 就 可 以 买 
到 。 只 不 过 ， 我 们 并 不 是 将 Linksys 硬件 作为 一 个 无 线路 由 器 来 使 用 。 我 们 的 做 法 是 ， 打 开 Linksys 设 
备 ， 将 一 根 串 行 线 连接 到 其 控制 端口 ， 使 用 该 串 行 线 来 中 断 Linksys 正常 的 启动 过 程 ， 并 通过 输入 命令 
来 迫使 Linksys 硬件 下 载 和 运行 一 个 Xinu 操作 系统 副本 。 也 就 是 说 ， 我 们 基本 上 忽略 供应 商 所 提供 的 
软件 ， 而 是 对 其 底层 的 硬件 进行 控制 来 运行 Xinu。 

本 书 适用 于 高 年 级 的 本 科 生 或 者 研究 生 ， 也 适用 于 那些 想 了 解 操作 系统 的 计算 机 从 业 人 员 。 在 本 
书 所 提供 的 全 部 材料 里 ， 虽 然 没 有 任何 议题 的 难度 达到 不 能 理解 的 程度 ， 但 学 习 本 书 的 全 部 内 容 可 能 
需要 超过 一 学 期 的 时 间 。 本 科 生 里 很 少 有 学 生 能 够 熟练 地 阅读 串 行 程序 ， 而 理解 运行 时 环境 的 细节 或 
机 器 架构 的 学 生 就 更 少 了 。 因 此 ， 必 须 对 学 生 进行 仔细 引导 ， 以 便 使 其 可 以 掌握 进程 管理 和 进程 同步 
的 知识 。 如 果 时 间 有 限 ， 我 推荐 覆盖 的 内 容 包括 第 1 章 ~ 第 7 章 (REN), PIE (基本 的 内 存 管 
理 )、 第 12 章 (中断 处 理 )、 第 13 章 (时 钟 管理 )、 第 14 章 (设备 无 关 的 VO) 和 第 19 章 (文件 系 
统 )。 此 外 ， 对 于 一 个 完整 学 期 的 本 科 生 课程 来 说 ， 讨 论 第 20 章 的 远程 文件 系统 等 基本 的 远程 访问 议 
题 也 很 重要 。 对 于 研究 生 课程 来 说 ， 学 生 应 当 完整 地 阅读 整 本 书 ， 课 堂 讨论 则 应 该 专注 于 一 些微 妙 的 
细节 、 各 种 折 中 和 不 同 实现 方案 的 比较 。 不 管 是 本 科 生 课程 还 是 研究 生 课程 ， 都 应 该 包括 的 两 个 议题 
是 : 1) 在 初始 化 阶段 ， 当 一 个 运行 中 的 程序 转化 为 一 个 进程 时 所 发 生 的 各 种 改变 ; 2) 当 输 入 行 里 的 
字符 序列 作为 一 个 字符 串 变量 传递 给 命令 进程 时 ， 在 操作 系统 壳 里 所 发 生 的 转化 。 

在 所 有 情况 下 ， 如 果 学 生 能 够 在 实验 室 中 对 系统 进行 动手 实验 ， 则 学 习 的 效果 将 大 幅 提高 。 理 想 
的 状态 下 ， 学 生 可 以 在 课程 的 最 初 几 天 或 几 个 星期 开始 使 用 这 个 系统 ， 然 后 再 试图 理解 系统 的 内 部 结 
构 。 本 书 第 1 章 提供 了 几 个 例子 和 一 些 能 够 引起 学 生 兴 趣 的 实验 〈 令 人 吃惊 的 是 ， 很 多 学 生 在 学 习 过 
操作 系统 课程 后 ， 却 没有 写 过 一 个 并 发 程序 或 使 用 过 操作 系统 功能 ) 。 

如 果 要 在 一 个 学 期 内 覆盖 本 书 的 大 部 分 内 容 ， 则 要 求 极 快 的 进度 ， 而 这 在 本 科 生 课程 里 难以 达到 。 
此 时 ， 选 择 略 去 哪些 内 容 将 很 大 程度 上 取决 于 选修 本 课程 的 学 生 的 背景 。 在 系统 课程 里 ， 我 们 需要 课 
堂 讲 解 时 间 来 帮助 学 生理 解 动机 和 细节 。 如 果 学 生 修 过 的 “数据 结构 ”课程 里 对 内 存 管 理 和 表 处 理 进 
行 过 讨论 ， 则 本 书 第 4 章 和 第 9 章 的 内 容 可 以 略 过 。 如 果 学 生 在 将 来 会 选修 网 络 方面 的 课程 ， 则 第 17 
章 的 网 络 协议 内 容 也 可 以 跳 过 。 此 外 ， 本 书包 括 一 章 远 程 磁盘 系统 和 一 章 远程 文件 系统 ， 这 两 章 的 内 
容 存在 一 些 相 似 之 处 ， 可 以 略 过 一 章 。 相 对 来 说 ， 远 程 磁盘 系统 一 章 的 内 容 可 能 更 加 贴切 ， 因 为 该 章 
引入 了 磁盘 块 缓存 的 议题 ， 而 该 议题 对 于 许多 操作 系统 来 说 都 非常 重要 。 

在 研究 生 课程 里 ， 课 党 时 间 可 以 用 来 讨论 动机 、 原 理 、 折 中 、 不 同 原 语 集 和 不 同 的 实现 方案 比较 。 
学 生 在 本 课程 学 习 结 束 后 ， 应 当 对 进程 模型 、 中 断 和 进程 之 间 的 关系 有 一 个 深刻 的 理解 ， 同 时 也 将 具 
备 理解 、 创 建 和 修改 系统 组 件 的 能 力 。 学 生 应 当 在 大 脑 中 建立 起 了 整个 系统 的 完整 概念 模型 ， 并 且 知 
道 所 有 的 组 件 之 间 是 如 何 交互 协作 的 。 

我 推荐 在 各 个 层面 上 设计 程序 设计 实验 。 本 书 的 许多 练习 都 推荐 对 代码 进行 修改 或 者 测量 ,或 者 
尝试 不 同 的 实现 方案 。 相 关 的 软件 可 在 下 面 的 网 站 上 免费 下 载 ， 该 网 站 上 还 列 有 如 何 创建 一 个 Linksys 
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因为 Linksys 的 硬件 非常 便宜 ， 所 以 构建 一 个 实验 的 成 本 很 低 。 此 外 ,我 们 也 有 用 于 其 他 硬件 平台 
的 软件 版 本 ， 这 些 版 本 包括 x86 和 ARM 的 一 个 功能 有 限 的 版 本 。 

本 书 中 的 许多 练习 都 建议 进行 改进 、 实 验 和 不 同 实现 ， 但 是 也 可 以 设计 大 型 实验 项 目 。 可 以 用 于 
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Operating System Design: The Xinu Approach, Linksys Version 


引言 和 概述 





我 们 的 小 小 系统 也 有 风光 的 时 刻 。 
— —Alfred, Lord Tennyson 


1.1 操作 系统 

每 一 个 智能 设备 和 计算 机 系统 中 都 隐藏 着 这 么 一 类 软件 ， 它 们 控制 着 处 理 信息 、 管 理 资源 以 及 与 
显示 屏 、 网 络 、 磁 盘 和 打印 机 等 设备 通信 的 工作 。 总 的 来 说 ， 这 些 进行 控制 和 协调 工作 的 代码 通常 叫 
做 执行 器 、 监 视 器 、 任 务 管理 器 ， 或 者 内 核 ， 而 我 们 将 使 用 一 个 更 宽泛 的 术语 操作 系统 。 

计算 机 操作 系统 是 人 类 创造 的 最 复杂 的 物体 之 一 : 计算 机 操作 系统 允许 多 个 计算 进程 和 用 户 同时 
共享 一 个 CPU， 保 护 数据 免 受 未 经 授权 的 访问 ， 并 保持 独立 输入 /输出 (VO) 设备 的 正确 运行 。 操 作 
系统 提供 的 高 级 服务 都 是 通过 向 复杂 的 硬件 发 送 一 系列 详细 的 命令 实现 的 。 有 趣 的 是 ， 操 作 系 统 并 不 
是 从 外 部 控制 电脑 的 独立 机 制 一 一 它 还 包括 一 些 软件 ， 这 些 软件 由 执行 应 用 程序 的 同一 处 理 器 执行 。 
事实 上 ， 当 处 理 器 运行 应 用 程序 的 时 候 ， 处 理 器 是 不 能 执行 操作 系统 的 ， 反 之 亦 然 。 

保证 操作 系统 总 在 应 用 程序 运行 结束 后 重新 夺回 控制 权 的 安排 机 制 使 得 操作 系统 的 设计 变 得 非常 
复杂 。 操 作 系 统 最 令 人 印象 深刻 的 方面 来 自 于 服务 和 硬件 之 间 的 不 同 : 操作 系统 在 低级 的 硬件 上 提供 
高 级 服务 。 随 着 本 书 内 容 的 推进 ， 读 者 就 会 理解 系统 软件 处 理 像 串 行 接口 这 样 简单 的 设备 需要 做 的 事 
情 。 而 其 中 的 哲学 原理 很 简单 : 操作 系统 应 该 提供 让 编程 更 加 容易 的 抽象 ， 而 不 是 反映 底层 硬件 设备 
的 抽象 。 因 此 ， 我 们 得 出 结论 : 

设计 操作 系统 时 ， 应 该 隐藏 底层 的 硬件 细节 ， 并 创建 一 个 为 应 用 程序 提供 高 级 服务 的 抽 

象 机 器 。 

操作 系统 的 设计 并 不 是 人 们 所 熟知 的 工艺 。 最 初 ， 由 于 计算 机 的 缺乏 和 价格 的 昂贵 ， 只 有 少数 程 
序 员 有 从 事 操作 系统 相关 工作 的 机 会 。 而 现在 ， 由 于 先进 的 微 电 子 技术 降低 了 制造 成 本 使 得 微 处 理 器 
不 再 昂贵 ,操作 系统 便 成 为 一 种 商品 ， 与 此 同时 也 只 有 少数 程序 员 从 事 操作 系统 方面 的 工作 。 有 趣 的 
是 ， 由 于 微 处 理 器 变 得 非常 便宜 ， 大 多 数 电子 设备 都 是 从 可 编程 处 理 器 构建 得 到 ， 而 不 是 从 离散 的 逻 
辑 构 建 得 到 。 因 此 ， 设 计 与 实现 微机 和 微 控 制 器 的 软件 系统 不 再 是 专家 的 专利 ， 它 已 成 为 一 个 称职 的 
系统 程序 员 必须 能 胜任 的 技术 。 

幸运 的 是 ， 随 着 生产 新 机 器 的 技术 的 发 展 ， 我 们 对 于 操作 系统 的 理解 也 在 不 断 提高 。 研 究 人 员 已 
经 找 出 了 根本 问题 ， 制 定 了 设计 原则 ， 定 义 了 基本 的 组 件 ， 并 设计 了 组 件 一 起 工作 的 机 制 。 更 重要 的 
是 ， 研 究 人 员 还 定义 了 一 系列 的 抽象 ， 如 文件 和 当前 进程 (这 些 抽象 对 于 所 有 的 操作 系统 都 是 相同 
的 ) ， 并 且 已 经 找到 了 实现 这 些 抽象 的 有 效 方式 。 最 后 ， 我 们 知道 了 如 何 将 操作 系统 的 不 同 组 件 组 织 成 
一 个 有 意义 的 系统 设计 与 实现 。 

同 早 期 系统 相 比 ， 现 代 操 作 系统 是 简洁 的 、 可 移植 的 。 设 计 良 好 的 系统 都 遵循 着 将 软件 分 割 成 一 
系列 基本 组 件 的 基本 设计 模式 。 因 此 ， 现 代 系统 就 变 得 更 容易 理解 和 修改 ， 相 比 早期 的 系统 其 处 理 开 
销 也 比较 小 。 

供应 商 出 售 的 大 型 商业 操作 系统 通常 包括 很 多 额外 的 软件 组 件 。 例如， 一 个 典型 的 操作 系统 软件 
发 行 版 包括 编译 器 、 连 接 器 、 装 载 程序 、 库 函数 和 一 系列 的 应 用 程序 。 为 了 区 分 这 些 额 外 的 软件 和 一 
个 基本 的 操作 系统 ， 我 们 有 时 会 用 内 核 指 代 常 驻 在 内 存 中 并 且 提 供 诸如 并 发 进程 支持 等 关键 性 服务 的 
代码 。 在 本 书 中 ， 操 作 系统 这 个 术语 指 的 就 是 内 核 ， 而 不 包括 其 他 附加 的 功能 。 一 个 最 小 化 内 核 功 能 
的 设计 有 时 称 为 微 内 核 设计 。 我 们 的 讨论 就 将 集中 在 微 内 核 上 。 


1.2 本 书 的 研究 方法 
本 书 讲解 了 如 何 构 建 、 设 计 并 且 实 现 操作 系统 的 内 核 。 书 中 使 用 了 工程 学 方法 ， 而 不 是 仅仅 罗列 
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操作 系统 的 特性 和 抽象 地 对 其 进行 描述 。 这 种 方法 向 我 们 展示 了 每 一 个 抽象 是 如 何 建立 的 ， 以 及 如 何 
将 这 些 抽象 组 织 成 一 个 优雅 、 高 效 的 设计 。 

这 种 工程 学 方法 有 两 个 优势 。 第 一 ， 因 为 本 书 的 内 容 涵盖 操作 系统 的 每 一 部 分 ， 所 以 读者 会 看 到 
整个 系统 如 何 融 合 在 一 起 ， 而 不 仅仅 是 一 两 个 部 分 之 间 如 何 交互 。 第 二 ， 由 于 读者 可 以 得 到 书 中 描述 
的 所 有 部 分 的 源 代 码 ， 所 以 任何 部 分 的 实现 都 没有 什么 神秘 的 地 方 一 一 读者 可 以 获得 一 份 系统 的 副本 
来 检查 、 修 改 、 工 具 化 、 测 量 、 扩 展 或 者 将 其 移植 到 其 他 架构 。 在 本 书 的 最 后 ， 读 者 会 看 到 操作 系统 
的 每 个 部 分 是 如 何 满 足 设计 需求 的 ， 以 帮助 读者 理解 可 选 的 设计 方案 。 


必须 通过 阅读 和 学 习 所 罗列 的 程序 来 欣赏 其 中 的 微妙 之 处 和 工程 中 的 细节 。 例 子 代码 都 非常 精简 ， 
这 意味 着 读者 可 以 集中 精力 在 概念 的 理解 上 而 不 需要 费力 地 阅读 许多 页 的 代码 。 但 某 些 练习 建议 的 
改进 或 修改 需要 读者 深入 细节 或 者 找到 其 他 方案 。 熟 练 的 程序 员 会 找到 更 多 方法 来 改进 和 扩展 我 们 
的 系统 。 


1.8 分 层 设计 

如 果 设 计 得 好 ， 操 作 系统 的 内 部 可 以 如 最 常规 的 程序 一 样 优 雅 、 简 洁 。 为 了 达到 优雅 的 目标 ， 本 
书 所 描述 的 设计 ， 将 系统 功能 划分 为 8 个 大 类 ， 并 将 这 些 组 件 组 织 成 多 个 层次 。 系 统 的 每 层 提 供 了 一 
个 抽象 的 服务 ， 该 服务 又 通过 低层 提供 的 抽象 服务 实现 。 该 方法 的 特点 很 明显 : 逐渐 变 大 的 层次 子 集 
可 以 形成 更 加 强大 的 系统 。 我 们 将 会 看 到 如 何 利 用 分 层 方 法 来 帮助 设计 者 降低 操作 系统 的 复杂 性 。 

该 方法 的 另 一 个 重要 特点 体现 在 运行 时 的 效率 上 一 一 设计 者 可 以 在 不 引入 额外 开销 的 情况 下 将 
操作 系统 的 片段 构建 为 一 个 层次 结构 。 不 过 ， 该 方法 不 同 于 传统 的 分 层 系统 。 在 传统 的 分 层 系 统 中 ， 
天 层 的 函数 只 能 调用 天- 1 层 的 函数 。 在 这 种 多 层次 的 方法 中 ， 层 次 只 为 设计 者 提供 了 一 个 概念 模 
型 一 一 在 运行 时 ， 高 层 的 函数 可 以 直接 调用 低层 的 任何 函数 。 我 们 将 看 到 ， 直 接 调 用 使 得 整个 系统 
更 有 效率 。 

图 1-1 说 明 在 本 书 中 所 使 用 的 层次 结构 ， 给 出 
了 我 们 将 讨论 的 组 件 的 预览 ， 并 展示 了 其 中 所 有 片 
段 的 结构 。 

分 层 结构 的 核心 是 计算 机 硬件 。 虽 然 硬件 不 是 
操作 系统 本 身 的 一 部 分 ， 但 现代 硬件 具有 的 特性 允 
许 其 与 操作 系统 紧密 集成 在 一 起 。 因 此 ， 我 们 可 以 
认为 硬件 是 层次 结 均 中 的 第 0 层 。 

从 硬件 开始 往 上 ， 操 作 系 统 的 每 个 层次 都 会 提 
供 更 强大 的 原 语 ， 从 而 为 应 用 程序 屏蔽 原始 的 硬 
件 。 内 存 管理 层 控制 和 分 配 内存 。 进 程 管理 层 是 操 
作 系 统 最 基础 的 组 成 部 分 ， 它 包括 进程 调度 和 上 下 
文 切 换 。 接 下 来 一 层 的 功能 包含 了 进程 管理 的 其 余 
部 分 内 容 ， 包 括 创 建 、 杀 死 、 挂 起 和 恢复 进程 。 进 
程 管理 的 上 层 是 进程 协调 组 件 ， 它 实现 了 信和 号 量 。 
实时 时 钟 管理 的 功能 包含 在 接 下 来 的 一 个 层次 中 ， 
它 允 许 应 用 软件 在 一 定 的 时 间 内 推迟 响应 。 实 时 时 
钟 上 面 的 一 层 是 与 设备 无 关 的 VO 程序 层 ， 它 提供 
我 们 所 熟悉 的 服务 ， 如 读 (read) AIS (write) 操 
作 。 在 设备 程序 之 上 的 一 层 实现 网 络 通信 ， 更 上 面 
的 一 层 则 实现 了 文件 系统 。 

系统 的 内 部 组 织 不 应 该 与 系统 提供 的 服务 相 混 一 一 
消 。 虽 然 将 组 件 组 织 成 不 同 的 层次 可 以 使 设计 和 实 图 1-1 在 本 书 中 使 用 的 多 层次 结构 





设备 管理 和 设备 驱动 导 
实时 时 钟 管理 层 
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现 更 加 简洁 ， 但 最 终 的 层次 结构 并 不 能 在 运行 时 限制 系统 调用 。 也 就 是 说 ,一 旦 系统 构建 完成 ， 各 个 
层次 的 基础 设施 都 可 以 暴露 给 应 用 程序 。 例 如 ， 应 用 程序 可 以 调用 信号 量 函数 ， 如 可 以 像 调用 外 层 的 
pute 函数 一 样 很 容易 地 调用 进程 间 协 调 层 的 wait 和 signal 函数 。 因 此 ， 多 层次 结构 仅仅 描述 了 内 部 的 
实现 ， 并 不 会 限制 系统 所 提供 的 服务 。 


1.4 Xinu 操作 系统 

本 书 中 所 用 的 例子 都 是 来 自 于 Xinu 操作 系统 。Xinu 是 一 个 小 型 而 优雅 的 系统 ， 主 要 用 在 如 手机 
或 MP3 播放 器 等 谋 入 式 环境 中 。 在 通常 情况 下 ， 在 系统 启动 时 ，Xinu 和 一 系列 固化 的 应 用 程序 会 一 起 
加 载 到 内 存 中 。 当 然 ， 如 果 内 存 受到 限制 或 者 硬件 体系 结构 要 求 指令 使 用 (与 数据 ) 分 离 的 内 存 ， 那 
4, Xin 就 可 以 在 闪存 中 或 者 其 他 只 读 存储 器 中 执行 。 然 而 ， 在 一 个 典型 的 系统 中 ， 在 主 内 存 中 执行 系 
统 会 得 到 更 高 的 性 能 。 

Xin 不 是 一 个 玩具 ， 它 是 一 个 功能 强大 的 操作 系统 ， 已 在 商业 产品 中 使 用 。 例 如 ，Xinu 已 使 用 在 
Williams/Bally (主要 制造 商 ) 旗下 出 售 的 弹 球 游戏 中 ，Woodward 公司 使 用 Xinu 系统 来 控制 大 型 燃气 / 
蒸汽 和 柴油 /蒸汽 涡轮 发 动机 ，Lexmark 公司 将 Xinu 作为 该 公司 许多 打印 机 的 操作 系统 。 在 不 同情 况 
下 ， 当 设备 启动 时 ， 硬件 加 载 包 含 Xinu 系统 的 内 存 映像 。 

Xinu 包含 了 操作 系统 最 基础 的 组 件 : 进程 、 内 存 、 计 时 器 管理 机 制 、 进 程 间 通信 设施 、 设 备 无 关 
的 IO 功能 和 Internet 协议 软件 。Xinu 系统 可 以 控制 IO 设备 并 且 执 行 一 些 基本 的 操作 ， 如 从 键盘 或 面 
板 读 取 按 键 、 在 输出 设备 上 显示 字符 、 管 理 多 个 并 发 的 计算 、 控 制 计时 器 、 在 计算 任务 之 间 传 递 消息 ， 
并 且 人 允许 应 用 程序 访问 Internet, 

Xinu 系统 说 明了 分 层 设计 是 如 何 应 用 在 实践 中 的 。 同 时 它 也 展示 了 这 些 操作 系统 的 片段 是 如 何 作 
为 一 个 统一 整体 运行 的 ， 以 及 一 个 操作 系统 是 如 何 将 这 些 服务 提供 给 应 用 程序 的 。 


1.5 操作 系统 不 是 什么 

在 进入 操作 系统 的 设计 之 前 ,我 们 需要 在 学 习 什 么 上 达成 共识 。 令 人 惊讶 的 是 , 许多 程序 员 都 没 
有 一 个 正确 直观 的 操作 系统 定义 。 导 致 这 种 问题 的 原因 可 能 是 供应 商 和 计算 机 专业 人 员 经 常 将 操作 系 
统 这 个 术语 泛 指 由 供应 商 提供 的 所 有 软件 以 及 操作 系统 本 身 ， 或 者 也 有 可 能 是 很 少 有 程序 员 直 接 使 用 
操作 系统 所 提供 的 服务 。 在 任何 情况 下 ， 通 过 排除 那些 人 们 熟知 的 并 非 操 作 系 统 内 核 的 部 分 ， 我 们 就 
可 以 很 快 地 给 出 一 个 操作 系统 的 定义 。 

第 一 ， 操 作 系统 不 是 一 种 编程 语言 或 编译 器 。 当 然 ， 一 个 操作 系统 必须 由 某 种 编程 语言 编写 ， 并 
且 在 设计 编程 语言 时 也 要 考虑 到 操作 系统 的 特点 和 特性 。 软 件 供应 商 可 能 提供 多 种 编译 器 ， 将 它们 集 
成 在 操作 系统 中 ， 由 此 带 来 了 很 多 的 困惑 。 然 而 ， 操 作 系统 并 不 依赖 于 任何 一 种 语言 的 特性 一 一 我 们 
将 会 看 到 ， 可 以 用 一 种 常规 的 语言 和 一 个 常规 的 编译 器 来 构建 操作 系统 。 

第 二 ， 操 作 系统 不 是 一 个 窗口 系统 或 浏览 器 。 许 多 计算 机 和 电子 设备 都 有 一 个 屏幕 用 来 显示 图 形 ， 
而 且 复 杂 的 系统 允许 应 用 程序 创建 和 控制 多 个 独立 的 窗口 。 虽 然 窗口 机 制 本 身 依赖 于 操作 系统 ， 但 是 
窗口 系统 可 以 在 无 需 更 换 操 作 系 统 的 情况 下 被 更 换 掉 。 

第 三 ， 操 作 系统 不 是 一 个 命令 解释 器 。 骨 人 式 系统 通常 包括 一 个 命令 行 界面 (Command Line Inter- 
face, CLI), AERA RSM CLI 来 进行 所 有 的 控制 操作 。 然 而 ， 在 一 个 现代 的 操作 系统 中 ， 命 令 
解释 器 只 是 一 个 应 用 程序 ， 并 且 在 无 需 修改 底层 系统 的 情况 下 就 可 以 更 改 解释 器 。 

第 四 ， 操 作 系统 不 是 一 个 函数 库 或 方法 库 。 应 用 程序 基本 上 都 需要 使 用 库 函 数 ， 比 如 发 送 电子 邮 
件 、 处 理 文档 、 提 供 数 据 库 访问 ， 或 者 通过 因特网 (Internet) 来 进行 通信 ， 并 且 库 函数 中 的 程序 往往 
可 以 提供 一 些 有 意义 的 功能 。 尽 管 许多 库 函 数 使 用 了 操作 系统 的 服务 ， 但 底层 操作 系统 仍然 是 独立 于 
PE PRECII o 
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第 五 ， 操 作 系 统 不 是 计算 机 开机 后 最 先 运行 的 代码 。 相 反 ， 计 算 机 中 包含 固件 (例如 保存 在 非 易 
失 存储 器 中 的 程序 ) ， 它 负责 初始 化 各 种 硬件 ， 将 操作 系统 副本 加 载 到 内 存 中 ， 然 后 跳 转 到 操作 系统 开 
始 执行 的 地 方 。 例 如 ， 在 个 人 计算 机 (Personal Computer, PC) 中 ， 这 种 固件 称 为 基本 输入 输出 系统 
( Basic Input Output System, BIOS), 


1.6 从 外 面 看 操作 系统 

操作 系统 的 本 质 在 于 它 给 应 用 程序 提供 的 服务 。 应 用 程序 通过 系统 调用 来 访问 操作 系统 服务 。 在 
源 代 码 中 ， 系 统 调 用 看 起 来 与 常规 的 函数 调用 相似 。 然 而 ， 当 运行 系统 调用 时 ， 系 统 调用 将 控制 权 转 
交 给 操作 系统 来 执行 应 用 程序 请 求 的 服务 。 作 为 一 个 集合 ， 系 统 调用 在 应 用 程序 和 底层 操作 系统 之 间 
建立 一 个 精心 设计 的 边界 ， 这 个 边界 称 为 应 用 程序 接口 (Application Program Interface，API) 。API 在 
定义 系统 服务 的 同时 也 定义 了 应 用 程序 如 何 使 用 这 些 服 务 的 细节 。 

为 了 了 解 操 作 系 统 的 内 部 ,首先 必须 了 解 其 API 的 特点 和 应 用 程序 如 何 使 用 这 些 服 务 。 本 章 会 介 
绍 一 些 基 本 的 服务 ， 并 用 Xin 操作 系统 中 的 例子 来 曾 明 其 中 的 概念 。 例 如 ，Xinu 的 pute 还 能 向 一 个 
特殊 的 VO 设备 写 人 单个 字符 。pute 需要 两 个 参数 : 设备 标识 符 和 所 要 写 人 的 字符 。 文 件 exl. e 中 有 
一 个 C 程序 ， 该 程序 在 Xinu 中 运行 后 会 在 控制 台 显示 “hi" 


/* exl.c - main */ 





#include <xinu.h> 


/[* ——— ———————————————— MR ————M—————— a 
* main -- write "hi" on the console 
Sisco i SS ee Se i ee Se ee ee ee eee oe Se oe ae SSS SSS ee eee 
*/ 
void main(void) 
( 
putc(CONSOLE, 'h'); putc(CONSOLE, 'i'); 
putc(CONSOLE, ‘\r’); putc(CONSOLE, ‘\n'); 
} 


这 段 代 码 中 包含 一 些 Xinu 使 用 的 约定 。 源 代码 中 的 语句 上 neclude < xinu. h > 插入 了 一 系列 声明 ， 使 
程序 可 以 引用 操作 系统 的 参数 。 例 如 ， 在 Xinu 的 配置 文件 中 定义 了 符号 常量 CONSOLE 来 对 应 一 个 控 
制 台 串 行 设备 ， 通 过 它 ， 程 序 员 可 以 与 伐 入 式 系统 进行 交互 。 接 下 来 ， 我 们 会 看 到 xinu. h 文件 中 还 包 
括 其 他 的 include 文件 ， 并 学 习 类 似 CONSOLE 这 样 的 名 字 如 何 成 为 一 个 设备 的 代名词 。 现 在 只 需要 知 
id, include 语句 必须 出 现在 所 有 Xinu 应 用 程序 中 就 足够 了 。 

RC GRA RATE (〈 例 如 ， 为 了 调试 ) ， 僚 人 式 系统 上 的 串 行 设备 需要 与 常规 计算 机 的 
终端 应 用 程序 连接 。 每 次 用 户 按 下 计算 机 键盘 上 的 一 个 键 时 ， 终 端 应 用 程序 通过 串 行 线路 向 艇 入 式 系 
统 发 送 击 键 信号 。 类 似 地 ， 每 次 嵌入 式 系统 向 串 行 设备 发 送 一 个 字符 时 ， 终 端 应 用 程序 需要 在 用 户 的 
屏幕 上 显示 该 字符 。 因 此 ， 控 制 台 提 供 了 嵌入 式 系统 与 外 界 之 间 的 双向 通信 。 

上 面 所 列 出 的 主 程序 向 控制 台 串 行 设备 写 信 了 4 个 字符 :“h”、“i”、 回 车 符 和 换行 符 。 后 两 个 
是 控制 字符 ， 它 们 负责 将 光标 移动 到 下 一 行 的 开头 。 当 程序 发 送 控制 字符 时 ，Xinu 不 执行 任何 特殊 操 
作 一 一 控制 字符 仅仅 像 字母 数字 字符 一 样 被 传送 到 串 行 设备 上 。 在 该 例子 中 ， 引 入 控制 字符 是 用 来 说 
AW pute 不 是 行 导 向 的 。 在 Xinu 系统 中 ， 程 序 员 需 要 自己 换行 。 

上 述 源 文件 介绍 了 两 个 贯穿 全 书 的 重要 约定 。 首 先 ， 文件 的 开始 是 一 行 包含 文件 名 称 (exl.c) 的 
注释 。 如 果 源 文件 包含 多 个 函数 ， 那 么 每 个 函数 名 需要 出 现在 该 注释 行 中 。 如 果 知 道 文件 的 名 称 ， 可 
以 帮助 我 们 在 Xinu 的 机 器 可 读 副本 中 定位 这 些 文件 。 其 次 ， 文 件 中 需要 有 一 个 注释 块 来 标识 程序 的 开 
始 Cmain) 。 如 果 文 件 中 的 每 个 方法 前 面 都 有 一 个 注释 块 ， 那 么 就 可 以 很 容易 地 定位 这 些 方法 。 


1.7 其 他 章节 概要 
本 书 其 余 章节 的 内 容 是 根据 操作 系统 的 设计 层次 进行 推进 的 ， 该 设计 遵循 如 图 1-1 所 示 的 多 层次 
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的 组 织 方式 。 第 2 章 介绍 并 发 编程 和 操作 系统 所 提供 的 服务 。 接 下 来 的 章节 顺序 大 致 与 设计 和 构建 的 
操作 系统 顺序 相同 : 从 最 内 层 向 最 外 层 的 顺序 。 每 章 介 绍 了 一 个 层次 在 系统 中 所 扮演 的 角色 ， 介 绍 其 
中 新 的 抽象 并 解释 说 明 源 代码 中 的 细节 。 总 之 ， 这 些 章节 描述 了 一 个 完整 的 、 可 工作 的 系统 ， 同 时 解 
释 了 在 这 个 简洁 优雅 的 设计 中 不 同 的 组 件 是 如 何 组 织 起 来 的 。 

虽然 自 底 向 上 的 方法 开始 看 起 来 有 些 别 扭 ， 但 它 展 示 了 操作 系统 设计 师 是 如 何 建 立 操作 系统 的 。 
系统 的 整体 结构 将 在 第 9 章 开始 变 得 明确 。 在 第 15 章 结 束 后 ， 读 者 将 会 理解 一 个 能 够 支持 并 发 程序 的 
最 小 内 核 。 第 20 章 介绍 系统 的 远程 文件 访问 。 到 第 23 章 时 ， 整 个 设计 将 包含 一 套 完整 的 操作 系统 
功能 。 


1.8 观点 

为 什么 要 学 习 操 作 系统 ? 虽然 商业 系统 广泛 使 用 ， 但 只 有 相对 较 少 的 程序 员 编写 操作 系统 代码 。 
然而 ， 即 使 是 在 小 型 嵌入 式 系统 中 ， 应 用 程序 也 要 运行 在 操作 系统 之 上 并 使 用 它 所 提供 的 服务 。 因 此 ， 
了 解 操 作 系统 内 部 如 何 工 作 能 够 帮助 程序 员 领 会 并 发 处 理 的 精妙 并 在 使 用 有 关系 统 服务 时 做 出 明智 的 
选择 。 
1.9 总 结 


操作 系统 并 不 是 一 种 语言 、 编 译 器 、 窗 口 系统 、 浏 览 器 、 命 令 解释 程序 ， 或 者 程序 库 。 由 于 大 多 
数 应 用 程序 都 要 使 用 操作 系统 的 服务 ， 所 以 程序 员 需 要 了 解 操作 系统 中 的 原则 。 在 可 编程 电子 设备 上 
工作 的 程序 员 需 要 了 解 操作 系统 的 设计 。 

本 书 采 取 了 一 个 切实 可 行 的 方法 ， 以 Xinu 系统 为 例 来 阐述 操作 系统 概念 ， 而 不 是 抽象 地 描述 组 件 
和 操作 系统 的 特性 。 虽 然 Xinu 小 而 优雅 ， 但 它 并 不 是 一 个 玩具 一 一 它 已 在 商业 产品 获得 使 用 。Xinu 3f 
循 了 多 层次 的 设计 原则 ， 在 这 种 设计 中 系统 的 软件 组 件 被 组 织 成 8 个 概念 层次 。 从 原始 的 硬件 开始 到 
一 个 可 工作 的 操作 系统 ， 本 书 对 操作 系统 的 每 个 层次 都 进行 了 详细 说 明 。 


练习 

操作 系统 是 否 应 该 使 硬件 设施 对 应 用 程序 可 用 ? 为 什么 是 或 者 不 是 ? 

举例 说 明 使 用 一 个 真实 的 操作 系统 有 什么 优势 。 

构成 操作 系统 的 8 个 重要 组 件 是 什么 ? 

在 Xinu 的 多 层次 结构 中 ,文件 系统 功能 是 否 依赖 于 进程 管理 功能 ”进程 管理 功能 是 否 依赖 于 文件 系 

统 功能 ? 解释 原因 。 

1.5 探索 你 最 喜欢 的 操作 系统 的 系统 调用 ， 并 编写 一 个 程序 来 使 用 它们 。 

各 种 编程 语言 在 设计 时 结合 了 一 些 操作 系统 中 的 概念 ， 例 如 进程 和 进程 同步 原 语 。 选 择 一 种 编程 语 

言 ， 列 出 该 语言 提供 的 功能 清单 。 

1.7. 搜索 网 络 ， 列 出 还 在 使 用 的 主流 的 商用 操作 系统 。 

1.8 比较 Linux 和 微软 的 Windows 操作 系统 的 功能 。 其 中 一 个 系统 支持 的 功能 ， 在 另 一 个 系统 中 也 支 
持 吗 ? 

19 应 用 程序 可 用 的 操作 系统 功能 集合 称 为 应 用 程序 接口 (API) 或 者 系统 调用 接口 。 选 择 两 个 操作 系 
统 ， 计 算 每 个 操作 系统 提供 的 功能 数 ， 并 进行 比较 。 

.10 在 1.9 题 的 基础 上 ， 找 出 一 个 系统 有 而 另 一 个 系统 没有 的 功能 。 描 述 这 些 功能 的 目的 和 重要 性 。 

-11 操作 系统 有 多 大 ? 选择 一 个 系统 ， 找 出 其 内 核 的 代码 行 数 。 
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有 一 篇 有 关 IBM PC 上 的 新 型 操作 系统 的 文章 是 这 样 说 的 : 真正 的 并 发 是 当 你 唤起 并 使 用 另 一 个 程 
序 时 ， 当 前 的 程序 实际 上 仍然 在 执行 。 这 种 能 力 可 能 比 常 人 所 能 认识 到 的 更 加 惊异 ， 但 对 普通 人 却 用 
处 甚 少 。 你 运行 过 多 少 个 执行 时 间 超过 几 秒 的 程序 呢 ? 

— — 《纽约 时 报 》，1989 年 4 月 25 日 


2.1 引言 
本 章 讨论 操作 系统 为 应 用 程序 提供 的 并 发 编程 环境 。 首 先 描述 了 并 发 执行 的 模型 ， 并 说 明了 为 什 
么 并 发 执行 的 应 用 程序 需要 协调 和 同步 的 机 制 。 然 后 介绍 了 进程 和 信和 号 量 等 基本 概念 ， 并 解释 了 应 用 
程序 如 何 使 用 这 些 概念 。 
本 章 并 不 抽象 空洞 地 叙述 操作 系统 ， 而 是 引用 Xinu 系统 上 的 具体 例子 来 阐述 诸 如 并 发 、 同 步 等 概 
念 。 本 章 包 含 了 一 些 通 俗 易 懂 的 程序 ， 尽 管 它们 都 只 有 寥寥 几 行 代码 ， 却 能 体现 并 发 执行 的 本 质 。 以 
OO 后 的 章节 将 就 一 个 操作 系统 如 何 实 现 上 述 每 种 概念 展开 详细 讨论 。 


2.2 多 活动 的 编程 模型 

现在 ， 即 便 是 小 型 计算 设备 ， 都 具备 同时 处 理 多 项 任务 的 能 力 。 比 如 ， 当 手机 接 通 了 语音 来 电 后 ， 
仍然 可 以 显示 时 间 、 监 听 其 他 来 电 ， 或 者 允许 用 户 调整 音量 。 更 复杂 的 计算 机 系统 允许 一 个 用 户 运 行 多 个 
同时 执行 的 应 用 程序 。 但 问题 也 就 产生 了 : 在 这 类 系统 中 ,应 当 如 何 组 织 软件 ? 有 三 种 基本 方案 可 供 使 用 ; 

。 同步 事件 循环 。 

e 异步 事件 处 理 程序 。 

e. 并 发 执行 。 

同步 事件 循环 (synchronous event loop): 术语 同步 指 的 是 经 过 协调 的 多 个 事件 。 同 步 事件 循环 使 
用 一 个 大 循环 来 处 理事 件 协调 。 在 该 循环 的 给 定 迭 代 期 间 ， 代 码 检 查 每 一 个 可 能 的 活动 并 调用 恰当 的 
处 理 程序 。 因 此 ， 代 码 结构 大 致 如 下 : 


while (1) { /* synchronous loop runs forever */ 
Update time-of-day clock; 
if (screen timeout has expired) { 
turn off the screen; 


} 
if (volume button is being pushed) { 
adjust volume; 
} 
if (text message has arrived) { 
Display notification for user; 
} 
= 
异步 事件 处 理 程序 (asynchronous event handler): 第 二 种 方案 用 于 这 样 一 类 系统 ， 其 硬件 在 配置 后 
可 为 每 一 个 事件 调用 一 个 处 理 程序 (handler) 。 比 如 ， 调 整 音量 的 代码 可 能 放置 在 内 存 中 位 置 100， 可 
以 把 硬件 配置 为 : 当 按 下 “音量 ”按钮 时 ， 控 制 转移 至 位 置 100。 类 似 地 ， 还 可 把 硬件 配置 为 ， 当 一 
条 文本 消息 到 达 时 ， 控 制 转移 至 位 置 200， 以 此 类 推 。 程 序 员 需 要 为 每 一 个 事件 分 别 写 一 段 独立 的 代 
码 ， 并 利用 全 局 变量 来 协调 它们 的 交互 。 例 如 ， 当 用 户 按 下 “静音 ”按钮 后 ， 与 静音 事件 相关 联 的 代 
人 码 就 会 将 音频 关 掉 并 将 该 状态 记录 至 一 个 全 局 变量 中 。 此 后 ， 当 一 个 用 户 想 要 调整 音量 时 ， 与 “ 音 
LI2] 量 ”按钮 相关 联 的 代码 会 检查 这 个 全 局 变量 ， 打 开 音 频 ， 并 更 改 这 个 全 局 变量 来 反映 音频 打开 的 状态 。 
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并 发 执行 (concurrent execution) 用 于 组 织 多 项 活动 的 第 三 种 架构 ， 也 是 最 为 重要 的 。 在 这 种 架 
构 下 ， 软 件 被 组 织 为 一 组 并 发 运行 的 程序 。 该 模型 有 时 称 为 运行 至 结束 ( run-to- completion) 模型 ， 因 
为 每 一 项 计算 似乎 都 能 一 直 运 行 下 去 ， 直 到 它 自己 选择 结束 为 止 。 从 程序 员 角 度 看 ， 并 发 执行 是 令 人 
愉悦 的 。 与 同步 或 异步 事件 相 比 ， 并 发 执行 更 为 强大 、 更 易于 理解 、 更 不 易 出 错 。 

接 下 来 的 小 节 将 阐述 操作 系统 为 并 发 性 提供 的 必要 支持 和 并 发 模型 的 特征 。 以 后 的 章节 还 将 深入 
剖析 支持 并 发 编程 模型 的 潜在 操作 系统 机 制 和 相关 函数 。 


2.3 操作 系统 服务 
操作 系统 提供 的 主要 服务 是 什么 ?尽管 各 个 操作 系统 的 具体 情况 千变万化 ,但 大 多 数 系统 都 提供 
一 组 共通 的 基本 服务 。 这 些 服务 〈 以 及 讨论 它们 的 章节 ) 如 下 : 
© 执行 并 发 支持 (第 5、6 章 ) 
进程 同步 设施 (第 7 章 ) 
进程 间 通 信 机 制 (第 8 章 ) 
应 用 程序 间 的 保护 (第 9、10 章 ) 
地 址 空间 和 虚拟 内 存 的 管理 (第 10 章 ) 
VO 设备 的 高 层 接口 (第 12 ~14 章 ) 
网 络 通信 (第 17 章 ) 
文件 系统 和 文件 访问 设施 (第 19 ~21 章 ) 
并 发 执行 在 操作 系统 中 处 于 核心 地 位 ， 我 们 将 看 到 并 发 性 的 确 会 影响 操作 系统 中 的 每 一 部 分 代码 。 
因此 ， 我们 将 首先 研究 操作 系统 为 并 发 所 提供 的 设施 ， 然 后 借用 并 发 性 来 说 明 应 用 程序 如 何 调用 操作 
系统 服务 。 


2.4 并 发 处 理 的 概念 和 术语 

传统 程序 是 品行 的 〈sequential ) ， 因 为 程序 员 可 以 想象 计算 机 是 逐条 语句 地 执行 这 段 代 码 。 在 任 
何 时 刻 ， 机 器 只 能 执行 一 条 语句 。 操 作 系统 支持 一 种 扩展 的 计算 概念 ， 称 为 并 发 处 理 ( concurrent pro- 
cessing) 。 并 发 处 理 意味 着 在 同一 个 时 间 可 以 进行 多 项 计算 ” 。 

许多 与 并 发 处 理 相关 的 问题 随 之 而 来 。 很 容易 想象 : N 个 独立 的 程序 正 同时 在 入 个 处 理 器 或 NN 
个 核 上 执行 ， 但 要 想象 这 组 独立 的 计算 正在 一 台 处 理 单元 少 于 入 个 的 计算 机 上 进行 却 并 不 容易 。 即 
使 计算 机 有 一 个 核 ， 并 发 计算 是 否 可 行 ? 如 果 多 项 计算 同时 进行 ， 系统 又 该 如 何 防止 一 个 程序 与 其 
他 程序 发 生 干 扰 ? 程 序 间 如 何 协 调 以 保证 在 给 定时 间 内 一 个 输入 输出 设备 的 控制 权 只 为 一 个 程序 所 
拥有 ? 

尽管 多 数 CPU 确实 已 经 蕴含 了 一 定 程度 的 并 行 性 ,但 最 显而易见 的 并 发 形式 一 一 多 个 独立 的 应 用 
程序 同时 执行 ， 却 仍 是 一 个 大 幻觉 。 为 创造 出 并 发 执行 的 错觉 ， 操 作 系 统 使 用 了 一 种 称 为 多 道 编 程 
(multiprogramming) 的 技巧 一 一 操作 系统 在 多 个 程序 间 切 换 可 用 的 处 理 器 ， 人 允许 一 个 处 理 器 用 仅 有 的 
几 毫 秒 执行 一 个 程序 ， 随 后 转 而 处 理 别 的 程序 。 从 人 的 角度 看 ， 程 序 似乎 是 在 并 发 地 执行 。 多 道 编程 
构成 了 大 多 数 操作 系统 的 基础 。 唯 一 的 例外 是 那些 操作 基础 设备 的 系统 ， 如 简化 的 电视 遥控 器 和 安全 
至 上 的 嵌入 式 系统 ， 又 如 飞行 器 上 的 航空 电子 设备 和 医疗 设备 控制 器 ， 它 们 使 用 一 个 同步 事件 循环 来 
确保 苛刻 的 时 间 限 制 得 到 绝对 的 满足 。 

支持 多 道 编 程 的 系统 可 以 分 成 两 大 类 : 分 时 ， 实 时 。 

分 时 (timesharing) ”分 时 系统 给 予 所 有 计算 以 相同 的 优先 级 ， 并 且 允 许 计算 在 任何 时 间 开 始 或 终 
止 。 因 为 分 时 系统 允许 动态 地 创建 一 项 计算 ， 所 以 这 些 系 统 在 面向 人 类 用 户 的 计算 机 上 颇 受 欢迎 。 分 
时 系统 允许 用 户 在 使 用 浏览 器 浏览 网 页 的 同时 ， 运 行 一 个 电子 邮件 应 用 程序 ， 或 者 运行 一 个 后 台 应 用 
程序 播放 音乐 。 分 时 系统 最 主要 的 特征 是 : 一 项 计算 所 获得 的 处 理 器 时 间 与 这 个 系统 的 负载 呈 反 比例 





O 这 里 的 “计算 ” 指 的 是 一 项 计算 任务 ， 下 同 。 一 一 译 者 注 
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关系 一 -如果 有 N 项 计算 正在 进行 ,那么 每 项 计算 大 约会 获得 可 用 CPU 周期 的 1/V。 因 此 ， 随 着 越 来 
越 多 计算 的 出 现 ， 每 项 计算 的 速率 将 会 不 可 避免 地 降低 。 

实时 (real-time) ”因为 实时 系统 的 设计 要 求 就 是 要 满足 (苛刻 的 ) 性 能 约束 ， 所 以 不 会 同等 地 对 
待 所 有 计算 。 相 反 ， 实 时 系统 为 每 项 计算 分 配 一 个 优先 级 ， 并 且 需 要 非常 小 心 谨慎 地 调度 处 理 器 以 确 
保 每 项 计算 满足 所 要 求 的 执行 计划 。 实 时 系统 最 主要 的 特征 是 : 它 总 是 将 CPU 分 配给 最 高 优先 级 的 任 
务 ， 即 便 其 他 任务 正在 等 待 。 比 如 ， 通 过 提高 语音 传输 任务 的 优先 级 ， 手 机 中 的 实时 系统 可 以 确保 会 
话 不 被 中 断 ， 即 使 此 时 用 户 运行 了 天 气 查 看 程序 或 游戏 程序 。 

多 道 编程 系统 的 设计 者 使 用 了 大 量 的 术语 来 表示 一 项 计算 ， 包 括 进程 (process)、 任 务 (task), 
作业 (job) 和 控制 线程 (thread of control) 。 术 语 进程 或 作业 经 常 意味 着 一 项 自 包 含 的 计算 ， 与 其 他 计 
算 相互 独立 。 一 个 进程 通常 占用 内 存 中 一 块 单独 的 区 域 ， 并 且 操 作 系 统 会 阻止 一 个 进程 访问 一 块 已 经 
分 配给 另 一 个 进程 的 内 存 。 术 语 任务 指 的 是 一 个 静态 声明 进程 ， 即 程序 员 使 用 一 种 编程 语言 以 类 似 函 
数 声明 的 方式 来 声明 一 个 进程 。 术 语 线程 指 的 是 一 类 进程 ， 它 们 与 别 的 线程 共享 同一 个 地 址 空间 。 共 
享 内 存 意 味 着 一 组 线程 内 的 成 员 可 以 高 效 地 交换 信息 。 早 期 的 科技 文献 中 常用 术语 进程 来 表示 通常 意 
义 下 的 并 发 执行 。UNIX 操作 系统 普及 了 这 样 一 种 观念 : 每 个 进程 都 占用 了 一 块 独立 的 地 址 空间 。 
Mach 系统 引入 了 一 种 二 级 并 发 编程 方案 ， 其 中 操作 系统 允许 用 户 创 建 一 个 或 多 个 进程 ， 每 个 进程 都 运 
行 于 独立 的 内 存 区 域 中 ， 并 进一步 允许 用 户 在 一 个 给 定 进程 中 创建 多 个 控制 线程 。Linux 遵循 的 是 
Mach 模型 。 我 们 使 用 首 字 母 大 写 的 单词 Process 来 表示 Linux 风格 的 进程 。 

由 于 Xinu 是 为 嵌入 式 环境 设计 的 ， 所 以 它 允 许 进程 共享 同一 个 地 址 空间 。 确 切 地 讲 ，Xinu 的 进程 
遵循 线程 模型 。 然 而 ， 因 为 术语 进程 已 经 广 为 接 收 ， 所 以 本 书 中 不 失 一 般 性 地 将 其 看 做 一 项 并 发 计算 。 

2.5 节 将 通过 对 几 个 应 用 实例 的 研究 来 帮助 读者 区 分 并 发 执行 和 串 行 执行 。 正 如 我 们 将 看 到 的 ， 
这 种 差异 在 操作 系统 设计 中 扮演 了 核心 角色 一 一 操作 系统 的 每 一 部 分 都 必须 以 支持 并 发 执行 为 目标 进 
行 构建 。 


2.5 串 行程 序 和 并 发 程序 的 区 别 

当 程序 员 创建 一 个 传统 的 〈 串 行 的 ) 程序 时 ， 他 会 想象 一 个 处 理 器 在 没有 中 断 和 干扰 的 情况 下 按 
部 就 班 地 执行 这 个 程序 。 然 而 编写 并 发 程序 的 代码 时 ， 程 序 员 则 必须 采取 一 种 完全 不 同 的 思维 : 想象 
多 项 计算 同时 执行 。 操 作 系 统 的 内 部 代码 就 是 适应 并 发 性 极 好 的 例子 。 在 任意 给 定时 刻 ， 可 能 有 多 个 
进程 在 执行 。 最 简单 的 情况 下 ， 每 个 进程 执行 的 应 用 程序 代码 不 会 被 其 他 进程 同时 执行 。 然 而 ， 操 作 
系统 的 设计 者 必须 事先 计划 好 这 样 的 情形 : 多 个 进程 同时 调用 同一 个 操作 系统 函数 ， 甚 至 执行 同一 条 
指令 。 更 复杂 的 问题 在 于 ， 操 作 系统 可 能 会 在 任意 时 间 进 行进 程 切换 。 在 多 道 编程 系统 中 ， 相 对 计算 
速度 无 法 保证 。 

要 设计 出 能 够 在 并 发 环境 下 正确 执行 的 代码 不 失 为 一 项 严峻 的 智力 挑战 ， 因 为 程序 员 必 须 确保 无 
论 执行 什么 操作 系统 代码 或 者 以 何 种 顺序 执行 ， 所 有 的 进程 都 能 够 相互 合作 。 我 们 将 会 看 到 并 发 执行 
的 观念 是 如 何 影响 操作 系统 的 每 一 行 代码 。 

为 了 理解 并 发 环境 下 的 应 用 程序 (如何 工作 ) ， 考 虑 Xinu 模型 。 当 Xinu 启动 时 ， 它 创建 一 个 进 
程 ， 并 开始 执行 主 程序 。 这 个 最 初 的 进程 能 够 继续 独立 执行 ， 或 者 创建 新 的 进程 。 当 创建 一 个 新 进程 
时 ， 原 来 的 进程 仍 继续 执行 ， 并 且 两 者 并 发 地 执行 。 无 论 原 进程 还 是 新 进程 ， 都 可 以 再 创建 其 他 的 并 
发 执行 的 进程 。 

比如 ， 考 虑 一 个 创建 两 个 进程 的 并 发 应 用 程序 。 每 个 进程 通过 控制 台 串 行 设 备 发 送 字符 : 第 一 个 
进程 发 送 字母 A， 而 第 二 个 发 送 字母 B。 文件 e2.e 包含 了 源 代码 ， 由 一 个 主 程序 、 两 个 函数 snd A 和 
sndB 组 成 。 

/* ex2.c - main, sndA, sndB */ 





#include «xinu.h» 


void sndA(void), sndB(void); 
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/* €— RÀ €——— À— —— ——— — ————— ——Ó—————— —— ———— —À——————————Ó————— ——Ó—————À———— 
* main -- example of creating processes in Xinu 
I ETTI TO ————————————————————————— i ini 
x7 
void main (void) 
{ 

resume( create(sndA, 1024, 20, "process 1", 0) ); 

resume( create(sndB, 1024, 20, "process 2", 0) ); 
} 
/[* ahaa Cd CST UNES GN M a I I ian CES qa ME Ga CER de qp mei ip ME eee 4 sn dre 
* sndA -- repeatedly emit 'A' on the console without terminating 
A amem a EAE eue m Ee M EI E SS SS (‘STESSI ee iiu ms ui m/m US Gul in QU qq ans 
xJ 
void sndA (void) 
( 

while( 1 ) 

putc(CONSOLE, 'A'); 

} 
= 
* sndB -- repeatedly emit 'B' on the console without terminating 
| rceEEVECE—————Á——— X —a— Á««——————9——————n———Á"— 
*/ 
void sndB (void) 
{ 


while( 1 ) 
putc(CONSOLE, 'B'); 


在 这 段 代 码 中 ， 主 程序 从 不 直接 调用 另外 两 个 函数 。 相 反 ， 主 程序 调用 了 两 个 操作 系统 函数 ，cre- 
ate 和 resume。 每 一 次 调用 create 都 会 创建 一 个 新 的 进程 ， 并 从 第 一 个 参数 指定 的 地 址 开始 执行 指令 。 
在 这 个 例子 中 ， 对 create 的 第 一 次 调用 传递 了 函数 sndA 的 地 址 ， 第 二 次 调用 传递 了 函数 sndB 的 地 
址 ?。 因 此 ， 这 有 段 代码 创建 了 一 个 进程 来 执行 sndA 和 另 一 个 进程 来 执行 sndB。create 建立 了 一 个 准备 
执行 但 暂时 挂 起 的 进程 ， 并 返回 一 个 称 为 进程 标识 符 ( process identifier) 或 进程 ID (process ID) 的 整 
数值 。 操 作 系 统 使 用 进程 ID 来 辨别 新 创建 的 进程 ， 应 用 程序 使 用 进程 ID 来 引用 该 进程 。 在 这 个 例子 
中 ， 主 程序 将 create 返回 的 ID 作为 参数 传递 给 了 resume, resume 启动 了 (解除 挂 起 ) 这 个 进程 ， 人 允许 
该 进程 开始 执行 。 普 通 函 数 调用 与 进程 创建 (系统 调用 ) 的 区 别 在 于 : 

普通 函数 调用 在 被 调用 的 函数 完成 之 前 不 会 返回 。 而 进程 创建 函数 create 和 resume 在 启 

动 一 个 新 进程 后 立即 返回 ， 这 将 使 已 有 的 进程 与 新 进程 并 发 地 执行 。 

在 Xinu 中 ， 所 有 进程 都 是 并 发 执行 的 ， 即 一 个 给 定 进程 是 独立 于 其 他 进程 而 持续 执行 的 ， 除 非 程 
序 员 显 式 控制 进程 间 的 交互 。 在 这 个 例子 中 ， 第 一 个 新 进程 执行 函数 sndA 中 的 代码 ， 不 断 发 送 字母 
A; 而 第 二 个 新 进程 执行 函数 sndB 中 的 代码 ， 不 断 发 送 字 母 B。 由 于 进程 是 并 发 执行 的 ， 所 以 输出 结 
果 是 许多 A AB 的 混合 。 

那么 主 程序 将 发 生 什么 ? 记 住 在 一 个 操作 系统 中 ， 每 一 项 计算 都 对 应 于 一 个 进程 。 因 此 ， 我 们 应 
该 问 :“ 执 行 主 程序 的 进程 发 生 了 什么 ?” 因 为 控制 已 经 到 达 了 主 程序 的 未 尾 ， 所 以 执行 主 程序 的 进程 
在 第 二 次 调用 resume 以 后 将 会 退出 。 它 的 退出 不 会 影响 到 新 创建 的 进程 一 一 它们 将 继续 不 停 地 发 送 A 
和 B。 后 面 小 节 将 对 进程 终止 做 详细 讨论 。 


2.6 多 进程 共享 同一 段 代 码 
文件 ex2. c 中 的 例子 描述 的 是 每 个 进程 执行 独立 的 函数 。 然 而 ， 还 有 可 能 多 个 进程 执行 同一 个 函 





O create 的 其 他 参数 指定 了 所 需要 的 栈 空间 、 调 度 优先 级 、 进 程 的 名 称 、 传 递 给 该 进程 的 参数 个 数 ， 以 及 传递 给 该 
进程 的 参数 值 (如 果 有 的 话 ) ， 我 们 将 在 以 后 讲 到 这 些 细节 。 
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数 。 令 多 个 进程 共享 代码 对 于 内 存 较 小 的 嵌 人 式 系统 非常 重要 。 文 件 ex3. c 中 的 程序 是 一 个 多 进程 共 
享 代码 的 实例 。 


/* ex3.c - main, sndch */ 
#include <xinu.h> 


void sndch (char) ; 


/* m_ocscoru a sie TOD, lle i ———————————M—Á— Á'OÉÉ—— ee Pra Dd 
* main -- example of 2 processes executing the same code concurrently 
| M——— ————————————————— 2! ER V NL C PM I T E a 
*/ 
void main(void) 
( 
resume( create(sndch, 1024, 20, "send A", 1, 'A') ); 
resume( create(sndch, 1024, 20, "send B", 1, 'B') ); 
} 
III ERA 
* sndch -- output a character on a serial device indefinitely 
TERRE i a —————————— ——————————————— ——— 
* 
void sndch( 
char ch /* character to emit continuously */ 
) 
{ 
while ( 1 ) 


putc(CONSOLE, ch); 


正如 前 面 的 例子 所 示 ， 一 个 进程 开始 执行 主 程序 。 这 个 进程 两 次 调用 create 来 启动 两 个 新 进程 ， 
它们 均 执 行 函数 sndch 的 代码 。create 调用 的 最 后 两 个 参数 指明 了 create 将 传递 一 个 参数 给 新 创建 的 进 
程 以 及 该 参数 的 值 。 因 此 ， 第 一 个 进程 收 到 字符 A 作为 参数 ， 而 第 二 个 进程 收 到 字符 B. 

尽管 它们 执行 的 是 同一 份 代码 ， 但 是 两 个 进程 能 够 在 相互 不 影响 的 前 提 下 并 发 地 执行 。 特 别 地 ， 
每 个 进程 都 拥有 一 份 自己 的 参数 和 局 部 变量 副本 。 因 此 ， 一 个 进程 产生 A， 而 另 一 个 进程 产生 B。 这 
个 问题 的 关键 点 在 于 : 

一 个 程序 由 可 被 单个 控制 进程 执行 的 代码 组 成 。 相 比 之 下 ， 并 发 进程 并 不 是 唯一 地 关联 

到 一 段 代码 ， 多 个 进程 可 以 同时 执行 同一 份 代码 。 

这 些 例子 暗示 了 设计 一 个 操作 系统 所 涉及 的 诸多 困难 。 设 计 者 不 仅 必须 保证 每 一 段 代 码 在 独立 运 
行 时 的 正确 性 ， 还 要 保证 多 个 进程 可 以 在 没有 互相 干扰 的 情况 下 并 发 地 执行 一 段 给 定 的 代码 。 

尽管 进程 间 可 以 共享 代码 和 全 局 变量 ,但 每 个 进程 必须 有 一 份 私 有 的 局 部 变量 副本 。 为 了 理解 这 
样 做 的 原因 ， 可 以 考虑 如 果 所 有 进程 共享 了 每 个 变量 将 会 造成 何等 的 混乱 。 举 例 来 说 ， 假 设 两 个 进程 
尝试 使 用 一 个 共享 变量 作为 for 循环 的 循环 变量 (index) ， 一 个 进程 可 能 会 在 另 一 个 进程 执行 循环 体 期 
间 修 改 其 值 。 为 避免 这 种 干扰 ， 操 作 系 统 为 每 个 进程 创建 了 一 组 独立 的 局 部 变量 。 

函数 create 还 为 每 个 进程 分 配 了 一 组 独立 的 参数 ， 正 如 文件 ex3. e 中 的 实例 所 展示 的 。 在 create 调 
用 中 ， 最 后 两 个 参数 分 别 指明 了 后 面 的 参数 个 数 (实例 中 为 1)， 以 及 操作 系统 传递 给 新 创建 进程 的 
值 。 在 这 段 代 码 中 ， 第 一 个 新 进程 以 字符 A 作为 参数 ， 进 程 开始 执行 时 ， 形 式 参数 ch 设 为 A。 第 二 个 
新 进程 开始 执行 时 ，ch 设 为 B。 因 此 ， 输 出 中 包含 的 是 两 种 字母 的 混合 。 这 个 例子 指出 了 串 行 编程 与 
并 发 编程 模型 的 一 个 重大 区 别 。 

局 部 变量 、 函 数 参 数 以 及 函数 调用 栈 的 存储 空间 是 与 执行 一 个 函数 的 进程 相关 联 ， 而 不 
是 与 该 函数 的 代码 相关 联 。 
重点 在 于 : 操作 系统 必须 为 每 个 进程 分 配额 外 的 存储 空间 ， 即 便 一 个 进程 与 其 他 进程 共享 了 同样 
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的 代码 。 因 此 ， 可 用 的 内 存 数 限制 了 能 够 创建 的 进程 数量 。 


2.7 进程 退出 与 进程 终止 

文件 ex3. c 中 实例 中 的 并 发 程序 由 三 个 进程 组 成 : 初始 进程 和 两 个 通过 系统 调用 create 启动 的 进 
程 。 前 文 提 到 当 控 制 到 达 主 程序 代码 末尾 时 ,初始 进程 停止 执行 。 我 们 使 用 术语 进程 退出 (process 
exit) 来 描述 这 种 情形 。 每 个 进程 从 一 个 函数 的 开头 开始 执行 。 一 个 进程 既 可 以 因为 到 达 函 数 的 末尾 而 
退出 ， 也 可 以 通过 在 它 的 初始 函数 中 执行 一 条 返回 语句 而 退出 。 一 旦 一 个 进程 退出 了 ， 它 就 从 系统 中 
消失 了 。 正 在 进行 中 的 计算 简单 地 少 了 一 项 。 

不 要 把 进程 退出 (系统 调用 ) 与 普通 隐 数 调用 或 者 递归 函数 调用 相 混 淆 。 正 如 一 个 串 行程 序 ， 每 
个 进程 都 有 自己 的 函数 调用 栈 。 无 论 何 时 执行 一 个 调用 ， 被 调用 函数 的 活动 记录 (activation record) 
都 会 压 人 栈 中 。 无 论 何 时 调用 返回 ， 该 函数 的 活动 记录 都 会 从 栈 中 弹出 。 当 一 个 进程 把 最 后 一 条 活动 
记录 (对 应 于 进程 启动 时 最 顶层 的 函数 ) 从 栈 中 弹出 时 ， 该 进程 退出 。 

系统 例 程 kill 提供 了 一 种 终止 (terminate) 进程 的 机 制 ， 无 需 等 待 进程 退出 。 从 某 种 意义 上 说 ， 
kill 是 create 的 逆 操 作 一 一 kill 接受 一 个 进程 ID 作为 参数 ， 并 立即 将 该 进程 移 除 。 可 以 在 任意 时 刻 、 任 
意 函 数 皂 套 层 将 一 个 进程 终止 。 当 进程 终止 时 ， 它 将 立即 停止 执行 ， 所 有 分 配给 该 进程 的 局 部 变量 均 
消失 。 事 实 上 ， 该 进程 的 整个 函数 调用 栈 都 被 移 除了 。 

一 个 进程 可 以 通过 终止 自己 来 退出 ， 这 同 终止 别 的 进程 一 样 容易 。 若 要 这 样 做 ， 进 程 可 以 通过 系 
统 调用 getpid 获得 自己 的 进程 ID ， 然 后 调用 kill 来 请 求 终 止 : 

kill( setpid() ); 

如 果 当 前 进程 通过 这 种 方式 终止 ， 那 么 对 kil 的 调用 将 永远 不 会 返回 ， 因 为 调用 它 的 进程 已 经 退 

BT. 


2.8 共享 内 存 、 竞 争 条 件 和 同步 

在 Xinu 中 ， 每 个 进程 都 有 它 自己 的 局 部 变量 、 函 数 参数 和 函数 调用 副本 ， 但 所 有 进程 共享 一 组 全 
局 〈 外 部 ) 变量 。 数 据 共享 有 时 候 很 方便 ， 但 也 很 危险 ， 特 别 是 对 那些 不 习惯 写 并 发 程序 的 程序 员 。 
比如 ， 考 虑 两 个 并 发 进程 ， 两 者 均 递增 一 个 共享 整数 n。 就 底层 硬件 来 说 ， 递 增 一 个 整数 需要 三 个 
ER: 

© 把 内 存 中 变量 的 值 载 和 一 个 寄存 器 。 

e 递增 该 寄存 器 中 的 值 。 

* 将 寄存 器 中 的 值 写 回 内 存 中 的 变量 no 

因为 操作 系统 可 以 选择 在 任意 时 刻 从 一 个 进程 切换 到 另 一 个 进程 ， 所 以 可 能 存在 潜在 的 竞争 条 件 
(race condition) ; 两 个 进程 同时 尝试 递增 no VERI 可 能 会 首先 启动 并 将 n 的 值 载 人 一 个 寄存 器 。 但 就 
在 那 一 刻 ， 操 作 系统 切换 到 了 进程 2， 它 载 人 了 ， 递 增 寄 存 器 ， 并 写 回 结果 。 不 幸 的 是 ， 当 操作 系统 
切换 回 进程 1 继续 执行 时 ， 该 寄存 器 中 存放 的 还 是 n 原来 的 值 。 进 程 1 递增 了 原来 的 n 值 并 将 结果 写 
回 内 存 ， 柳 盖 了 进程 2 放 入 内 存 的 值 。 

为 明白 共享 是 如 何 进 行 的 ， 考虑 文件 ex4. c 中 的 代码 。 该 文件 包含 两 个 进程 的 代码 ， 它 们 通过 一 
个 共享 整数 n 进行 通信 。 一 个 进程 不 断 递增 这 个 整数 ， 而 另 一 个 进程 不 断 打 印 出 它 的 值 。 


/* ex4.c - main, produce, consume */ 





#include «xinu.h» 
void produce (void), consume (void); 


int32 n=0; /* external variables are shared by all processes */ 





日 ”代码 中 使 用 类 型 名 称 inB2 来 强调 变量 ”是 一 个 32 位 整数 ， 以 后 将 会 解释 类 型 命名 的 传统 做 法 。 


ll 





[19] 


[20] 
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/* da mlilccicccsccci ccm mmm. TT TE 
* main -- example of unsynchronized producer and consumer processes 
* li llciil-cciicrccrocim_>_—-———cc———————————————@————————————@—++@6 
#/ 
void main(void) 
{ 
resume( create(consume, 1024, 20, "cons", 0) ); 
resume( create(produce, 1024, 20, "prod", 0) ); 
} 
/* 二 二 二 二 二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
* produce -- increment n 2000 times and exit 
d assez a au oi de cw rendu mem i i GE Eo sU Ed pA EM NUMEN S SEC d equ un aM QU G6 MM Ei uides quo uq que p N ans n ds quil Met R 
*/ 
void produce (void) 
{ 
int32 ii 
for( i-1 ; i«-2000 ; i++ ) 
ntt; 
) 
/* ——————————————————————————————— 
* consume -- print n 2000 times and exit 
Lo pT——————Áá———————————————— —— ————— 
*/ 
void consume (void) 
{ 
int32 i; 


for( i=l ; i«-2000 ; i++ ) 
printf("The value of n is $d Wn", n); 
) 
TE LIBRAI, AZZ n 是 一 个 初始 值 为 0 的 共享 整数 。 执 行 produce 的 进程 迭代 2000 次 ， 递 
[21] tino 我 们 将 这 个 进程 称 为 生产 者 (producer) 。 执 行 consume 的 进程 同样 迭代 2000 次 。 它 用 十 进 制 方 

式 显 示 的 值 。 我 们 将 该 进程 称 为 消费 者 (consumer) 。 

运行 文件 ex4. c 一 一 它 的 输出 可 能 会 使 你 惊讶 不 已 。 大 多 数 程序 员 猜 想 消 费 者 将 至 少 打 印 出 一 些 ， 
也 许 全 部 0 ~ 2000 的 值 ， 可 是 它 没 有 。 在 一 次 典型 的 运行 中 , 在 前 几 行 中 值 为 0。 在 这 之 后 ， 它 的 值 
变 为 2000? 。 即 使 这 两 个 进程 并 发 运行 ， 但 它们 并 不 要 求 在 每 次 迭代 期 间 获得 相同 数量 的 CPU 时 间 。 
消费 者 进程 必须 对 输出 进行 格式 化 并 写 一 行 输出 ， 这 是 一 个 需要 数 百 条 机 器 指令 的 操作 。 尽 管 格式 化 
操作 的 代价 十 分 昂贵 ， 但 它 不 能 控制 时 序 。 输 出 操作 可 以 。 消 费 者 很 快 填 满 了 可 用 的 输出 缓冲 区 ， 然 
后 必须 等 待 输出 设备 以 便 把 字符 发 送 到 控制 台 ， 然 后 它 才 能 继续 运行 。 当 消费 者 等 待 时 ， 生 产 者 运行 。 
由 于 生产 者 每 次 迭代 只 需 执行 少量 的 机 器 指令 ， 所 以 它 甚 至 可 以 在 控制 台 设 备 发 送 完 一 行 字符 之 前 ， 
就 运行 完整 个 循环 并 退出 。 当 消费 者 再 次 恢复 执行 时 ， 它 发 现 的 值 为 2000。 

通过 独立 的 进程 进行 数据 的 生产 与 消费 是 十 分 常见 的 。 问 题 是 : 程序 员 应 该 如 何 同步 生产 者 和 消 
费 者 进程 ， 从 而 使 消费 者 可 以 接收 每 个 生产 出 来 的 数据 值 ? 显然 ， 生 产 者 必须 等 待 消费 者 访问 了 当前 
数据 项 后 才能 产生 男 一 个 数据 项 。 同 样 ， 消 费 者 必须 等 待 生产 者 制造 完 下 一 个 数据 项 。 为 使 这 两 个 进 
程 能 够 正确 协作 ， 必 须 仔细 地 设计 出 一 种 同步 机 制 。 至 关 重 要 的 约束 是 : 

在 一 个 并 发 编程 系统 中 ， 进 程 不 应 该 在 等 待 其 他 进程 时 仍然 占用 CPU, 
进程 在 等 待 男 一 个 进程 时 仍然 执行 指令 ， 可 以 认为 它 陷入 了 忙 等 待 (busy waiting) 。 为 了 理解 禁止 








O ”这 个 例子 假设 运行 在 32 位 体系 结构 上 ， 每 一 次 操作 都 会 影响 整个 32 位 整数 。 当 运行 在 8 位 体系 结构 上 时 ，n 的 
某 些 字 节 可 能 会 先 于 其 他 字 节 得 到 更 新 。 
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忙 等 待 的 原因 ， 不 妨 考虑 如 下 实现 。 如 果 一 个 进程 在 等 待 时 使 用 CPU， 那 么 这 个 CPU 就 不 能 执行 别 的 
进程 。 在 最 好 的 情况 下 ,计算 只 是 被 不 必要 地 推迟 了 ; 在 最 坏 的 情况 下 ， 正 在 等 待 的 进程 将 会 耗 尽 间 
CPU 处 理 器 的 所 有 可 用 的 CPU 时 间 ， 并 永久 等 待 下 去 。 

许多 操作 系统 都 包括 了 多 个 协调 函数 ， 以 供应 用 程序 使 用 以 避免 忙 等 待 。Xinu 提供 了 一 个 信号 量 
(semaphore) 抽象 一 该 系统 提供 了 一 组 系统 调用 ， 允 许 应 用 程序 操作 并 动态 创建 信号 量 。 一 个 信号 
量 系统 由 一 个 整数 值 (在 信号 量 创建 时 初始 化 ) 和 一 组 〈 零 个 或 多 个 在 该 信号 量 上 等 待 的 ) 进程 构 
成 。 系 统 调用 wait 递减 信号 量 的 值 ， 当 结果 为 负 时 ， 调 用 wait 的 进程 将 被 加 入 到 等 待 进程 集合 中 。 系 
统 调用 signal 执行 相反 的 操作 ， 将 信号 量 递增 并 人 允许 等 待 进程 之 一 继续 运行 (如 果 有 的 话 ) 。 为 实现 同 
步 ， 生 产 者 和 消费 者 需要 两 个 信号 量 ; 一 个 用 于 使 消费 者 等 待 ， 另 一 个 用 于 使 生产 者 等 待 。 在 Xin 
中 ， 信 号 量 可 以 通过 系统 调用 semereate 动态 创建 ， 它 接收 给 定 的 初始 计数 作为 参数 ， 并 返回 一 个 与 该 
信号 量 相关 联 的 整数 标识 符 。 

考虑 文件 ex. c 中 的 例子 。 主 进程 创建 了 两 个 信号 量 ，consumed 和 produced， 并 将 它们 作为 参数 伟 
递 给 它 创建 的 进程 。 因 为 信号 量 produced 的 初始 计数 为 1， 所 以 cons2 中 第 一 次 调用 wait 将 不 会 阻塞 。 因 
此 ， 消 费 者 可 以 自由 地 打印 出 的 初始 值 。 然 而 ， 信 号 量 consumed 的 初始 计数 为 0， 因 此 在 prod2 中 第 
一 次 调用 wait 会 阻塞 。 实 际 上 ， 生 产 者 会 在 递增 n 之 前 等 待 信号 量 consumed 以 确保 消费 者 已 经 打印 了 
当前 的 n。 当 执行 这 个 例子 时 ， 生 产 者 和 消费 者 进行 协调 ， 消 费 者 会 打印 从 0 ~ 1999 的 所 有 值 。 


/* ex5.c - main, prod2, cons2 */ 
#include <xinu.h> 


void prod2(sid32, sid32), cons2(sid32, sid32); 


int32 n=0; /* n assigned an initial value of zero */ 
[*----------------2--2-2-2------2-2--22--2-2----2--22---2--2-2-22-2-22--2---------2---2----- 
* main -- producer and consumer processes synchronized with semaphores 
Sea Se Se See le i SS Sea Se ee ee ea MESURE RENE E ee d 
ai 

void main (void) 

{ 


sid32 produced, consumed; 


consumed = semcreate(0); 
produced = semcreate(1) ; 
resume( create(cons2, 1024, 20, "cons", 2, consumed, produced) ); 
resume( create(prod2, 1024, 20, "prod", 2, consumed, produced) ); 


} 

/* ————M— i i a a a ld ee ae ea ae ee wl R, 
* prod2 -- increment n 2000 times, waiting for it to be consumed 
ER 
#/ 

void prod2 ( 

sid32 consumed 
sid32 produced 
) 
{ 
int 32 as 
for( i=l ; i«-2000 ; i++) { 
wait (consumed) ; 
n++; 
signal (produced) ; 


13 
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/* ——————ÁÁ ———À —————————————————— M 
* cons2 -- print n 2000 times, waiting for it to be produced 
iis 
*7 
void cons2 ( 
sid32 consumed, 
sid32 produced 
) 
{ 
int32 i 
for( i-1 ; i<=2000 ; i++) { 
wait (produced) ; 
printf("n is %d \n", n); 
signal (consumed) ; 
) 
) 


2.9 信号 量 与 互 斥 

信和 号 量 还 提供 了 另 一 种 重要 用 途 ， 互 斥 (mutual exclusion) 。 两 个 或 更 多 进程 在 协作 时 需要 互 斥 ， 
以 保证 在 某 一 时 刻 它 们 中 只 有 一 个 进程 能 够 得 到 对 一 个 共享 资源 的 访问 权 。 比 如 ， 假 设 有 两 个 正在 执 
行 的 进程 ， 每 个 都 需要 向 一 个 共享 链表 中 插入 数据 项 。 如 果 它 们 并 发 地 访问 这 个 链表 ， 指 针 就 有 可 能 
被 错误 地 设置 。 生 产 者 -消费 者 同步 无 法 解决 这 个 问题 ， 因 为 这 两 个 进程 并 不 是 交替 地 访问 。 相 反 ， 
需要 有 一 种 机 制 允 许 任 一 进程 能 够 在 任何 时 间 访 问 这 个 链表 ， 同 时 必须 确保 互 斥 ， 即 一 个 进程 在 另 一 
个 进程 完成 前 将 一 直 等 待 。 

为 了 对 链表 这 样 的 共享 资源 提供 互 斥 保护 ， 进 程 创 建 一 个 初始 计数 为 1 的 信号 量 。 在 访问 这 个 共 
享 资源 之 前 ， 一 个 进程 在 该 信号 量 上 调用 wait， 并 在 完成 访问 之 后 调用 signal。 可 以 把 wait 和 signal 调 
用 分 别 放 置 在 相关 过 程 〈 用 于 执行 更 新 操作 ) 的 开头 和 末尾 ， 或 者 放置 在 访问 共享 资源 的 那 几 行 代码 
附近 。 使 用 术语 临界 区 (critical section) 来 表示 那些 不 能 被 多 个 进程 同时 执行 的 代码 。 

例如 ，ex6. c 中 定义 了 一 个 函数 ， 这 个 函数 给 一 个 由 多 个 进程 共享 的 数组 增加 一 个 元 素 ， 这 个 元 素 
的 值 为 item。 这 段 代码 的 临界 区 为 下 面 一 行 : 

shared[n++] = item; 

这 一 行 中 引用 了 数组 并 且 增 加 了 元 素 的 个 数 ， 因 此 互 斥 代码 只 需要 写 在 这 一 行 的 前 后 。 由 于 这 个 例子 
中 临界 区 在 函数 additem 之 中 ， 所 以 互 斥 所 需要 的 wait 和 signal 函数 调用 放 在 这 个 函数 的 开始 和 结 
尾 处 。 

additem 中 的 代码 在 访问 数组 之 前 就 调用 信号 量 mutex 上 的 wait 函数 ， 当 访问 结束 之 后 ， 调 用 这 个 
信号 量 上 的 signal 函数 外 。 除 了 这 个 函数 外 ， 程 序 中 还 有 三 个 全 局 变量 的 声明 : 数组 ar ， 数 组 的 索引 
n 和 用 于 实现 互 矿 的 信号 量 的 标识 符 mutex。 


/* ex6.c - additem */ 


#include <xinu.h> 


sid32 mutex; /* assume initialized with semcreate x} 
int32 shared[100]; /* an array shared by many processes ry 
int32 He /* count of items in the array at 
/* 人 
* additem -- obtain exclusive access to array ary and add an item to it 
ie cca rd un inl nC DE DEUS. Mi cs cue ote mti i EFE d se ui Ci rtl ri Ti sie Mur i ie a pk ets esr a oven 


int32 item /* item to add to array ary £l 


第 2 章 并 发 执行 与 操作 系统 服务 
) 


wait (mutex) ; 
shared[n++] = item; 
signal (mutex) ; 

} 


这 段 代 码 假设 了 全 局 变量 mutex 在 additem 调用 之 前 就 已 经 是 一 个 合法 的 信号 量 标识 符 。 也 就 是 

说 ， 在 初始 化 的 时 候 执 行 了 下 面 的 函数 : 
mutex = semcreate(1); 

ex6. c 展示 了 串 行程 序 和 并 发 程序 最 后 一 个 不 同 点 。 在 串 行 程序 中 ， 一 个 函数 对 一 个 数据 结构 的 访 
问 是 与 其 他 函数 隔离 开 的 ， 程 序 员 可 以 通过 封装 变量 的 修改 操作 方法 来 保证 系统 的 安全 性 一 一 只 需要 
检查 很 小 一 部 分 代码 的 正确 性 就 可 以 保证 数据 结构 的 正确 性 ， 因 为 程序 中 其 他 的 部 分 不 会 破坏 数据 的 
一 致 性 。 而 在 并 发 环境 下 ， 仅 仅 把 数据 修改 操作 隔离 起 来 是 不 够 的 ， 程 序 员 必 须 确 保 数据 修改 操作 是 
互 斥 的 ， 和 否则 其 他 进程 很 可 能 在 同一 时 刻 执 行 同 一 个 函数 ， 从 而 影响 数据 的 一 致 性 。 


2.10 Xinu 中 的 类 型 命名 方法 

上 述 代码 中 的 数据 声明 是 本 书 中 的 范例 。 比 如 ， 信 号 量 标识 符 的 类 型 名 称 为 sid32， 本 章 来 解释 这 
样 命 名 的 原因 。 

C 语言 编程 中 有 两 个 很 重要 的 问题 。 什 么 时 候 应 该 定义 新 的 类 型 名 称 ? 怎样 选 定 一 个 类 型 名 称 ? 
要 想 回答 这 两 个 问题 ， 必 须 首先 清楚 类 型 名 称 在 语言 概念 中 的 两 个 角色 。 

e 空间 : 一 个 类 型 定义 了 存储 一 个 变量 所 需要 的 存储 空间 以 及 什么 样 的 数值 可 以 赋值 给 这 个 

变量 。 

e FAR: 一 个 类 型 定义 了 变量 的 抽象 含义 ， 可 以 帮助 程序 员 了 解 如 何 使 用 这 个 类 型 的 变量 。 

空间 在 嵌入 式 系 统 中 ， 变 量 的 存储 空间 特别 重要 ， 因 为 程序 员 设计 的 数据 结构 必须 保证 内 存 的 
高 效 使 用 。 此 外 ， 如 果 在 设计 变量 的 存储 空间 的 大 小 时 没有 考虑 底层 硬件 的 实现 细节 ， 可 能 会 导致 意 
想不到 的 性 能 开销 ( 比如， 大 整数 的 算数 运算 可 能 需要 多 步 才 能 完成 ) 。 不 幸 的 是 ，C 语言 中 预定 义 的 
数据 类 型 并 没有 明确 数据 存储 空间 的 大 小 ， 比 如 int, short 和 long， 而 这 些 数据 类 型 的 存储 空间 的 实际 
大 小 是 由 底层 的 计算 机 架构 来 决定 的 。 比 如 ， 在 一 台 计 算 机 上 一 个 long 类 型 的 整数 可 能 需要 32 位 的 存 
储 空间 ， 而 在 另外 一 台 计 算 机 上 就 可 能 需要 64 位 的 存储 空间 。 因 此 为 了 保证 自己 定义 的 变量 有 精确 的 
存储 空间 大 小 ， 程 序 员 必 须 定 义 和 使 用 这 样 的 类 型 名 称 int32 来 声明 数据 的 大 小 。 

mik ”使 用 类 型 最 初 的 目的 是 定义 一 个 变量 的 使 用 目的 (也 就 是 说 ， 告 诉 人 们 这 个 变量 是 用 来 做 
什么 的 ) 。 比 如 ， 尽 管 信 号 量 的 标识 符 是 一 个 整数 ， 但 是 给 这 个 变量 一 个 类 似 semaphore 的 类 型 名 称 ， 
可 以 让 代码 的 读者 能 够 清楚 地 认识 到 这 个 变量 表示 的 是 一 个 信号 量 的 标识 符 ， 并 且 这 个 变量 只 能 用 在 
言 号 量 标识 符 的 应 用 场合 〈 比 如 ， 作 为 一 个 信号 量 操作 函数 的 参数 ) 。 这 样 ， 尽 管 这 个 变量 存储 的 是 
整数 ， 但 由 于 它 的 类 型 名 称 是 semaphore， 所 以 我 们 不 能 把 这 个 变量 作为 一 个 算数 表达 式 中 的 临时 变 
量 ， 也 不 能 把 它 用 来 存储 进程 号 或 者 设备 号 。 

3k (include) 文件 让 C 语言 中 的 类 型 声明 变 得 更 加 复杂 。 














理论 上 ， 每 个 头 文件 应 该 只 包含 一 个 模块 的 类 型 、 常 量 和 变量 | 类型 
声明 。 这 样 ， 如 果 需 要 寻找 进程 标识 符 的 类 型 ， 就 只 需要 查找 cs MS 
那些 定义 了 进程 相关 元 素 的 头 文件 。 然 而 ， 在 一 个 操作 系统 中 ， | bol | 表示 布尔 变量 的 8 位 变量 





模块 之 间 存 在 着 大 量 的 交叉 引用 。 比 如 ， 信 和 号 量 的 头 文件 引用 | _intl6 16 位 有 符号 整数 

了 进程 的 头 文件 ， 进 程 头 文件 也 引用 了 信和 号 量 的 头 文件 。 uint16 16 位 无 符号 整数 
在 Xinu 中 ， 采 用 了 一 种 新 的 方法 ， 既 可 以 定义 一 个 类 型 的 | int32 32 位 有 符号 整数 

空间 也 能 定义 一 个 类 型 的 用 途 。 比 如 ， 对 于 一 些 C 语言 本 身 的 “| uint32 32 位 无 符号 整数 


基本 数据 类 型 ， 如 char、short 、int 和 long， 在 该 方法 中 的 定义 
如 图 2-1 所 示 。 图 2-1 Xinu 中 整数 的 基本 类 型 
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对 于 那些 与 操作 系统 抽象 概念 相对 应 的 类 型 ， 类 型 的 名 称 由 助 记 符 和 数字 组 成 ， 助 记 符 说 明了 类 
型 的 作用 ， 而 数字 则 表示 变量 存储 空间 的 大 小 。 因 此 ， 一 个 定义 了 信和 号 量 标识 符 并 且 存储 空间 为 32 位 
整数 的 类 型 的 名 称 为 sid32， 一 个 定义 了 队列 标识 符 并 且 存 储 空间 为 16 为 整数 的 类 型 的 名 称 为 qid16。 

为 了 防止 模块 之 间 的 交叉 引用 ， 引 入 了 一 个 头 文件 kemel. h， 其 中 包含 所 有 数据 类 型 的 定义 ， 包 
括 图 2-1 中 的 数据 类 型 。 因 此 ， 每 个 源 文件 在 使 用 任何 类 型 之 前 必须 引用 kernel. ho PRE, kerel. h 
文件 必须 在 其 他 模块 的 头 文件 之 前 被 引用 。 为 了 方便 ， 我 们 在 Xin 中 使 用 了 xinu. h 头 文件 ， 这 个 头 文 
件 以 正确 的 顺序 引用 了 Xinu 中 所 有 的 头 文件 ， 我 们 只 要 在 我 们 的 源 文件 中 引用 这 个 头 文件 即 可 。 


2.11 使 用 Kputc 和 Kprintf 进行 操作 系统 的 调试 

本 章 中 的 例子 使 用 了 Xinu 的 函数 pute 和 printf 将 输出 显示 在 控制 台 (CONSOLE) 上 。 尽 管 当 操作 
系统 开发 出 来 并 通过 测试 后 ， 这 样 的 函数 可 以 正常 运行 ,但 是 在 构建 或 者 调试 时 ， 一 般 不 使 用 这 些 函 
数 ， 因 为 它们 正确 运行 的 前 提 是 操作 系统 中 很 多 模块 都 已 经 正常 运行 。 那 么 操作 系统 的 设计 者 在 调试 
中 使 用 什么 呢 ? 

答案 是 轮 询 IO， 操 作 系 统 的 设计 者 创建 一 个 特殊 的 IO 函数 ， 这 个 人 VO 函数 不 需要 中 断 就 可 以 工 
作 。 仿 照 UNIX 传统 的 命名 方式 ， 我 们 把 这 个 函数 叫做 kpute (也 就 是 ，pute 的 操作 系统 的 内 核 版 本 ) 。 
kpute 接收 一 个 字符 c 作为 参数 ， 然 后 进行 以 下 四 个 步骤 : 

e 禁止 中 断 。 

o 等 待 控制 台 (CONSOLE) 的 串 行 设备 空闲 。 

e 向 串 行 设备 发 送 字 符 co 

© 恢复 中 断 到 之 前 的 状态 。 

因此 ， 当 程序 员 调用 kpute 时 ， 所 有 其 他 的 处 理 过 程 都 暂停 运行 直到 字符 显示 出 来 ， 一 旦 字符 显 
示 出 来 ， 其 他 处 理 过 程 再 恢复 工作 。 这 种 机 制 的 核心 思想 是 ， 操 作 系统 不 需要 运行 就 可 以 使 用 ， 因 为 
kputc 直接 操作 底层 的 硬件 。 

一 旦 有 了 kpute， 实 现 一 个 格式 化 输出 的 函数 就 很 简单 了 。 同 样 ， 仿 照 UNIX 传统 命名 方式 ， 我 们 
把 这 个 函数 叫做 kprintf。 基 本 上 ，kprintk 和 printf 的 操作 基本 相同 ， 只 是 kprintk 调用 kpute, Mi printf 调 
用 pute. 

尽管 理解 轮 询 VO 的 具体 细节 并 不 重要 ， 但 是 操作 系统 调试 的 本 质 就 是 使 用 轮 询 LO; 

当 需 要 修改 或 者 扩展 操作 系统 的 时 候 ， 应 该 使 用 kprintf 打印 调试 信息 而 不 使 用 printf, 


2.12 MA 


并 发 处 理 是 操作 系统 中 最 强大 的 抽象 之 一 。 它 使 编程 变 得 简单 ， 并 且 更 不 容易 出 错 ， 同 时 在 很 多 
情况 下 ， 并 发 系统 的 整体 性 能 比 那些 手动 切换 任务 的 系统 更 好 。 正 是 由 于 性 能 上 的 优势 ， 并 发 执行 很 
快 成 为 了 绝 大 多 数 程序 设计 的 首选 。 


2.13 总 结 


想 要 了 解 操 作 系统 ， 首 先 需要 了 解 它 提供 给 应 用 程序 的 服务 。 操 作 系 统 提供 的 不 是 传统 的 串 行 
编程 环境 ， 而 是 一 种 多 线程 并 发 执行 环境 。 在 我 们 所 介绍 的 操作 系统 中 ， 与 大 多 数 操作 系统 相 类 似 ， 
进程 可 以 在 操作 系统 运行 的 时 候 创 建 和 终止 ， 多 个 进程 可 以 同时 执行 不 同 的 函数 ， 也 可 以 同时 执行 
一 个 函数 。 在 并 发 环境 中 ， 代 表 一 个 进程 的 是 参数 的 存储 、 局 部 变量 和 函数 调用 栈 而 不 是 进程 执行 
的 代码 。 

进程 通过 信和 号 量 这 样 的 原 语 进行 同步 以 便 协 作 执行 ， 两 种 比较 常见 的 协作 模式 是 生产 者 和 消费 者 
ALL R HJE o 








加 ”调试 操作 系统 的 代码 特别 困难 ， 因 为 禁止 中 断 可 以 改变 一 个 系统 的 执行 顺序 〈( 比 如， 阻止 时 钟 中 断 响应 ) 。 因 
此 ， 使 用 kprintk 的 时 候 必 须 特 别 小 心 。 
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练习 

什么 是 API? API 是 如 何 定义 的 ? 

多 道 编 程 指 的 是 什么 ? 

列举 两 种 多 道 编程 的 类 型 ， 并 说 明 它 们 各 自 的 特点 。 

进程 、 任 务 和 线程 ， 各 自 有 什么 特点 ? 

进程 的 标识 符 有 什么 作用 ? 

调用 函数 不 与 调用 函数 create 启动 进程 来 执行 函数 对 有 什么 不 同 ? 

ex3. c 中 使 用 了 3 个 进程 ， 修 改 代码 使 得 只 用 两 个 进程 就 得 到 同样 的 结果 。 

反复 测试 ex4. c 中 的 程序 ， 它 每 次 都 打印 相同 个 数 的 0 吗 ? 它 会 打印 出 不 是 0 或 者 2000 的 值 吗 ? 

在 Xinu 中 ， 全 局 变量 和 局 部 变量 有 什么 区 别 ? 

为 什么 程序 员 需 要 避免 忙 等 待 ? 

假设 有 3 个 进程 同时 调用 ex6. c 中 的 additem 函数 ， 解 释 下 它们 执行 的 步骤 以 及 每 一 步 中 信号 量 

的 值 。 

修改 ex5. c 中 生产 者 - 消费 者 的 代码 ， 使 用 一 个 15 个 空 槽 的 缓冲 区 ， 按 以 下 方式 同步 生产 者 和 消费 

者 : 生产 者 可 以 生产 最 多 15 个 值 ， 然 后 进入 阻塞 ， 消 费 者 获得 缓冲 区 中 所 有 的 值 ， 然 后 进入 阻塞 。 

也 就 是 说 ， 生 产 者 按 顺 序 访问 缓冲 区 ， 写 入 整数 值 1，2，…， 当 填 满 最 后 一 个 组 冲模 的 时 候 ， 生 产 

者 返回 缓冲 区 的 开始 处 ,然后 消费 者 遍历 所 有 的 数值 并 且 把 它们 打印 到 控制 台 。 需 要 几 个 信和 号 量 ? 

2.13 在 ex5.c 中 ,信号 量 produced 初始 化 为 1， 重 写 代 码 时 信号 量 produced 初始 化 为 0， 并 且 生 产 者 在 开 
始 迭 代 的 时 候 就 释放 信号 量 ， 这 会 影响 输出 吗 ? 

2.14 ”找到 一 个 你 可 以 访问 平台 的 串口 的 文档 (或 者 控制 台 硬 件 ) ， 描 述 轮 询 L/O 函数 kputc( ) 是 如 何 使 
用 该 设备 的 。 [29 | 
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一 台 机 器 可 以 做 50 个 平凡 人 做 的 工作 。 没 有 机 器 可 以 做 一 个 非凡 的 人 所 做 的 工作 。 
Elbert Hubbard 





3.1 引言 

因为 操作 系统 需要 处 理 设备 、 处 理 器 和 内 存 的 细节 ， 所 以 操作 系统 在 设计 中 不 可 避免 地 涉及 有 关 
底层 硬件 能 力 和 功能 的 知识 。 本 书 介绍 的 系统 运行 在 一 个 很 小 的 嵌入 式 硬件 系统 平台 上 一 E2100L 
Linksys 无 线路 由 器 。 我 们 使 用 Linksys 路 由 器 ， 因 为 它 很 简洁 ， 有 一 个 通用 的 指令 集 ， 容 易 获得 并 且 
价格 低廉 。 这 个 系统 小 到 足以 让 读者 能 够 理解 几乎 所 有 硬件 的 工作 方式 ， 同 时 又 足够 的 复杂 ， 能 够 让 
我 们 解释 操作 系统 如 何 工作 在 一 个 通用 的 系统 上 。 最 后 ， 程 序 员 可 以 很 方便 地 使 用 E2100L 来 下 载 和 运 
行 代码 ， 不 需要 复杂 的 硬件 环境 ， 也 不 需要 替换 ROM 芯片 。 

本 章 介绍 Linksys 硬件 ， 描 述 处 理 器 、 内 存 和 设备 的 相关 知识 ， 解 释 体系 结构 、 内 存 地 址 空间 、 运 
行 时 栈 、 中 断 机 制 和 设备 寻 址 等 概念 。 尽 管 介绍 的 是 与 FE2100L 有 关 的 细节 ， 但 这 些 基本 的 概念 可 以 广 
泛 应 用 到 几乎 所 有 的 计算 机 设备 上 。 


3.2 E2100L 的 物理 和 逻辑 结构 


物理 上 ， 一 个 Linksys 路 由 器 是 一 个 独立 的 使 用 分 离 式 电源 的 小 盒子 ， 由 于 Linksys 品牌 将 E2100L 
的 市 场 定位 为 消费 产品 ， 所 以 能 够 买 到 的 E2100L 都 是 完全 组 装 好 的 。 而 且 几 乎 所 有 的 主要 功能 组 件 都 
放 在 一 个 超大 规模 集成 电路 芯片 上 ， 这 种 方式 又 称 为 片上 系统 (System On a Chip, SoC), 

尽管 E2100L 电路 板 有 一 个 串 行 接口 的 引 脚 ,但 是 它 并 不 提供 外 部 连接 。 在 串口 可 以 使 用 之 前 ， 可 
以 用 廉价 的 串口 转换 器 连接 到 板 上 的 引 脚 。 串 口 连接 的 信息 ， 以 及 有 关 如 何 附 加 一 个 串口 连接 器 的 指 
导 可 以 在 下 面 的 网 址 中 找到 : 





http://www. xinu. cs. purdue. edu 
Wi E, E2100L 和 大 多 数 通用 计算 机 具有 同样 的 整体 架构 。 片 上 系统 的 组 件 包括 处 理 器 、 协 处 理 
器 、 内 存 接口 和 VO 设备 接口 ， 其 中 1O 设备 主要 用 于 连接 有 线 网 络 和 无 线 网 络 设备 。 
有 线 网 络 接口 连接 到 一 个 具有 四 个 RJ-45 端口 的 控制 器 上 ， 这 个 控制 器 可 以 看 做 一 个 集线器 ， 它 
通过 RJ-45 来 连接 本 地 计算 机 ” 。 另 一 个 有 线 网 络 接口 用 于 连接 因特网 ， 它 只 有 一 个 RJ-45 端口 。 系 统 
主板 ， 也 叫做 内 部 总 线 ， 提 供 了 系统 内 部 组 件 相互 交互 的 机 制 。 图 3-1 展示 了 系统 的 逻辑 结构 。 


a 系统 主板 〈 一 个 并 行 总 线 ) 
| | 
区 






































MIPS 闪存 有 线 网 络 | | 有 线 网 络 | | 无 线 网 络 
核心 ROM 设备 1 设备 2 设备 

i mE" 
包括 处 理 器 以 太 网 | 有 线 以 太 网 ”到 无 线 
" shee = 交换 机 | (因特网 ) 


有 线 以 太 网 (本 地 计算 机 ) 
图 3-1 E2100L 主要 组 件 的 逻辑 结构 





O 芯片 上 的 硬件 组 件 可 以 重新 配置 来 提供 不 同 的 多 和 辑 组 织 。 本 章 和 全 书 的 余下 章节 描述 的 是 默认 的 硬件 配置 ， 在 
系统 通电 后 ， 如 果 没 有 提供 额外 的 配置 信息 ， 那 么 使 用 的 就 是 默认 的 配置 。 
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3.3 节 介绍 E2100L 中 有 关 操 作 系统 的 特性 。 从 现在 开始 ， 我 们 关注 每 个 组 件 的 整体 设计 以 及 组 件 
是 如 何 相互 配合 的 。 后 面 的 章节 将 讨论 其 他 的 细节 ， 解 释 操 作 系统 如 何 与 硬件 进行 交互 ， 并 提供 相关 
例子 。 


3.3 处理 器 结构 和 寄存 器 
和 很 多 嵌入 式 系统 相 类 似 ，E2100L 使 用 了 RISC? 处 理 器 。RISC 处 理 器 实现 的 是 MIPS 指令 集 。 除 
去 一 些 特殊 情况 外 ， 操 作 系 统 不 需要 关注 指令 集 ， 因 为 编译 器 负责 生成 必要 的 代码 。 
处 理 器 包括 32 个 通用 寄存 器 ， 每 个 寄存 


器 有 32 位 长 并 且 可 以 存储 一 个 整数 、 一 个 地 us 

















址 或 者 4 个 8 位 字符 。 和 大 多 数 RISC 处 理 器 = 

一 样 ， 很 多 MIPS 操作 把 寄存 器 作为 参数 ， 将 汇编 器 临时 变量 ( 保留 给 汇编 器 使 用 ) 
运算 结果 放 在 寄存 器 中 。 尽 管 这 些 寄 存 器 是 通 函数 调用 的 返回 值 

用 的 ， 但 每 个 寄存 器 会 被 编译 器 指派 不 同 的 用 参数 寄存 器 ， 用 来 存放 函数 调用 的 前 四 个 变量 
途 。 比 如 ,一 个 寄存 器 用 做 栈 指针 ， 一 旦 发 生 函数 调用 前 后 的 临时 变量 ( 非 保留 的 ) 





函数 调用 ， 需 要 给 某 个 活动 记录 分 配 空间 ， 栈 
指针 的 值 就 发 生变 化 。 图 3-2 列 出 了 寄存 器 的 


函数 调用 前 后 的 保存 变量 ( 保留 的 ) 











名 字 和 它们 的 含义 中 断 硬件 使 用 的 内 核 寄 存 器 
协 处 理 器 包含 一 组 特殊 目的 的 寄存 器 ， 可 tali i 
以 用 来 支持 很 多 额外 的 功能 。 比 如 ， 因 为 RISC 函数 调用 结束 的 返回 地 址 


处 理 器 不 能 在 一 个 时 钟 周期 内 完成 除法 运算 ， 
所 以 协 处 理 器 用 来 处 理 64 位 除法 。 因 此 协 处 
理 器 有 一 对 寄存 器 用 来 存储 64 位 的 值 ， 一 个 寄存 器 存 低 32 位 ， 另 一 个 寄存 器 存放 高 32 位 。 类 似 地 ， 
协 处 理 器 里 还 有 存放 当前 中 断 屏蔽 字 (判断 是 否 允 许 中 断 ) 的 寄存 器 、 存 放 中 断 或 异常 返回 地 址 的 寄 
存 器 、 存 放 调 试 信息 的 寄存 器 。 第 12 章 将 说 明 操作 系统 如 何 使 用 特殊 的 协 处 理 器 寄存 器 。 


3.4 总 线 操作 : 获取 -存储 范式 

总 线 ， 又 称 为 系统 主板 ， 它 为 处 理 右 和 其 他 组 件 之 间 提 供 了 基本 的 通信 和 路径。 其 他 组 件 包 括 内 存 、 
VO 设备 以 及 接口 控制 器 。 和 大 多 数 的 计算 机 系统 总 线 一 样 ， 系 统 主 板 使 用 获取 - 存储 范式 (fetch- 
store paradigm) 。 比 如 ， 当 处 理 器 需要 访问 内 存 的 时 候 ， 它 在 总 线 上 放置 一 个 地 址 ， 然 后 发 送 一 个 获取 
请 求 去 获得 对 应 的 值 。 当 内 存 硬 件 接收 到 请 求 时 ， 它 在 内 存 中 查找 对 应 的 地 址 ， 将 数据 值 放 在 总 线 上 ， 
然后 告知 处 理 器 值 已 经 准备 好 。 类 似 地 ， 如 果 要 在 内 存 中 存储 一 个 值 ， 处 理 器 需要 在 总 线 上 放置 一 个 
地 址 和 一 个 值 ， 然 后 发 送 一 个 存储 请 求 ， 内 存 硬 件 接收 到 请 求 后 ， 提 取 要 存储 的 值 并 且 将 其 存放 在 地 
址 指定 的 内 存 位置 。 总 线 硬件 负责 处 理 获 取 - 存储 范式 中 的 细节 问题 ， 包 括 通知 处 理 器 或 者 其 他 使 用 
总 线 来 进行 交流 或 控制 的 组 件 。 我 们 可 以 看 到 ， 操 作 系 统 在 不 了 解 这 些 细节 的 情况 下 ， 就 可 以 使 用 
总 线 。 

系统 使 用 内 存 映 射 MO (就 是 说 ,每 个 10 设备 都 分 配 了 总 线 空间 上 的 一 些 地 址 ) ， 处 理 器 使 用 与 
访问 内 存 相同 的 获取 - 存储 范式 来 访问 L/O 设备 。 这 样 ， 访 问 VO 设备 就 好 像 访问 数据 一 样 ， 首 先 处 
理 右 计算 出 设备 的 地 址 ， 然 后 访问 设备 ， 在 访问 的 过 程 中 ， 处 理 器 或 者 向 该 地 址 存放 一 个 值 ， 或 者 从 
该 地 址 中 获得 一 个 值 放 人 寄存 器 中 。 


3.5 直接 内 存 访 问 
E2001L 上 的 一 些 L/O 设备 提供 了 直接 内 存 访 问 (Direct Memory Access, DMA) 功能 ， 这 些 设备 的 
硬件 可 以 使 用 总 线 与 内 存 直 接 通 信 。DMA 的 目的 是 让 IO REER, 因为 有 了 DMA ， 就 不 需要 频繁 地 


图 3-2 ”通用 寄存 器 及 其 作用 





© RISC 表示 Reduced Instruction Set Computer， 精 简 指 令 集 计 算 机 。 
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中 断 CPU， 也 不 需要 CPU 控制 数据 传输 。 相 反 ， 在 DMA 中 ， 处 理 器 交 给 IO 设备 一 系列 操作 ， 随 后 
设备 依次 执行 这 些 操作 ， 这 样 就 可 以 让 处 理 器 在 设备 执行 操作 的 过 程 时 继续 执行 代码 了 。 

例如 ， 考 虑 DMA 在 网 络 设备 上 的 应 用 。 为 了 接收 数据 包 ， 操 作 系 统 在 内 存 中 分 配 了 一 块 缓冲 区 ， 
然后 启动 网 络 设备 。 当 数据 包 到 达 时 ,设备 硬件 直接 把 数据 包 的 内 容 放 到 位 于 内 存 中 的 缓冲 区 里 ， 并 
中 断 处 理 器 。 为 了 发 送 数据 ， 操 作 系统 将 数据 包 放 在 内 存 缓冲 区 中 ， 然 后 启动 该 网 络 设 备 。 该 网 络 设 
备 随 后 直接 从 内 存 缓冲 区 中 获得 数据 并 将 数据 包 发 向 网 络 。 

除了 单个 数据 包 的 传输 外 ，E2100L 的 DMA 硬件 允许 处 理 器 请 求 多 个 操作 。 实 际 上 ， 处 理 器 创建 
了 要 发 送 的 数据 包 的 链表 和 存放 到 达 数 据 包 的 缓冲 区 的 链表 。 网 络 接口 硬件 使 用 这 些 链表 发 送 和 接收 
数据 ， 不 需要 处 理 器 在 每 个 操作 完成 之 后 重新 启动 设备 。 只 要 处 理 器 接收 数据 包 的 速度 大 于 数据 包 到 
达 的 速度 ， 就 可 以 将 新 的 缓冲 区 放 和 人 链表 中 ， 网 络 硬件 就 可 以 继续 接收 数据 包 。 同 样 ， 只 要 处 理 器 持 
续 地 产生 数据 包 并 把 它们 加 入 到 链表 中 ， 网 络 硬件 就 会 持续 地 发 送 
它们 。 接 下 来 的 章节 会 解释 更 多 有 关 DMA 的 细节 ， 并 且 给 出 操作 系 
统 中 的 硬件 驱动 如 何 分 配 L/O 缓冲 区 和 控制 DMA 操作 的 例子 。 


. 内 核 空 间 0xC0000000 

3.6 总 线 地 址 空间 (2G 字 节 ) OxBFFFEFF 
系统 主板 使 用 32 位 的 总 线 地 址 空间 ， 地 址 空间 的 范围 从 0xA0000000 
Ox9FFFFFF 


0x0000000 ~0xFFFFFFFF。 地 址 空间 中 的 有 些 地 址 对 应 的 是 内 存 ， 有 

些 地 址 对 应 的 是 闪存， 而 另 一 些 是 WO 设备 。 为 了 适应 操作 系统 提 

供 的 内 存 保护 和 虚拟 内 存 机 制 ， 将 地 址 空间 分 为 两 部 分 : 低 端 地 址 

(地 址 0x0000000 Ox7FFFFFFF) 为 用 户 空间 ， 而 高 端 地 址 (地址 

0x80000000 OxFFFFFFFF) 为 内 核 空 间 ， 内 核 空 间 又 进一步 细 分 为 用 户 空间 

段 。 图 3-3 给 出 了 这 种 组 织 的 示意 图 。 (2G 字 节 ) 
E2100L 中 的 内 存 以 8 位 字 节 为 最 小 的 可 寻 址 单元 。 在 C 语言 中 

使 用 术语 字符 来 代替 字 节 ， 因 为 每 个 字 节 都 可 以 存放 一 个 ASCII 字 

节 。 尽 管 32 位 总 线 可 以 寻 址 的 空间 是 4G 字 节 , fH E2100L 没有 4G 0x00000000 

字 节 的 内 存 。 相 反 ， 物 理 内 存 只 占据 LOM 字 节 并 且 在 地 址 空间 中 重 = s FA 

复出 现 。3. 7 节 会 解释 重复 的 原因 。 sunk ooo 


3.7 ”内核 段 KSEGO 和 KSEG1 的 内 容 空间 又 细 分 为 自 


内 核 段 KSEG0 和 KSEGI 是 操作 系统 的 基础 ， 它 们 具有 特别 的 含义 。 操 作 系 统 放 在 KSEG0 中 ， 这 
个 段 的 最 高 地 址 保留 给 VO 设备 使 用 ， 低 端 地 址 对 应 物理 内 存 ， 图 3-4 中 显示 了 KSEGO 的 布局 。 


0x80000000 
Ox7FFFFFF 




















Ox1FFFFFFF ) 
最 高 四 组 是 LO 
区 域 
0x18000000 
KSEG0 
(512M) 
多 个 地 址 空间 映射 
到 物理 内 存 > | 
0x00200000 
0x00100000 
内 存 


0x00000000 J 
图 3-4 KSEGO 的 地 址 空间 


尽管 KSEC0 包含 了 512M 字 节 的 地 址 ， 但 E2100L 的 物理 内 存 只 有 16M 字 节 。 因 此 在 地 址 空间 中 ， 
物理 内 存 表现 的 是 重复 出 现 。 例 如 ， 物 理 内 存 占据 了 0x00000 ~ 0x000FFFFF 的 相对 地 址 ， 而 同样 的 物 
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理 内 存 也 占据 着 地 址 空间 0x0010000 ~ 0x001FFFFF。 也 就 是 说 ， 在 将 这 部 分 地 址 映射 到 物理 内 存 的 时 
候 ， 硬 件 包 略 了 地 址 的 高 位 ” 。 
最 重要 的 一 点 是 : i 
引用 超出 物理 内 存 大 小 的 地 址 不 一 定 会 产生 一 个 错误 ， 这 是 由 于 地 址 的 高 位 被 忽略 了 ， 
因此 地 址 空间 可 以 被 映射 到 合法 的 物理 内 存 位 置 ， 就 好 像 物 理 内 存 重复 一 样 。 


3.8 总 线 启 动 的 静态 配置 

桌面 计算 机 包含 了 复杂 的 总 线 硬 件 ， 让 处 理 器 能 够 检测 到 连接 在 总 线 上 的 所 有 硬件 。 每 一 个 组 件 
都 分 配 一 个 唯一 的 标识 符 来 确定 供应 商 和 设备 类 型 。 在 启动 时 ， 操 作 系统 首先 探测 总 线 ， 判 断 哪 一 个 
组 件 为 当前 组 件 ， 并 要 求 所 有 的 组 件 都 返回 它们 的 标识 符 。 该 机 制 使 操作 系统 能 够 动态 地 进行 自我 配 
置 ， 同 时 使 同一 系统 具有 运行 在 不 同 硬件 平台 上 的 能 力 。 

与 桌面 计算 机 系统 不 同 ,嵌入 式 系统 通常 使 用 静态 配置 的 方式 。 也 就 是 说 ， 在 操作 系统 设计 的 时 
候 所 有 的 硬件 配置 就 应 该 确定 了 ， 操 作 系 统 在 启动 的 时 候 将 不 再 动态 探测 或 重新 配置 。 第 24 章 将 讨论 
系统 配置 的 更 多 细节 内 容 ， 并 提供 一 个 静态 配置 的 实例 。 


3.9 调用 约定 和 运行 时 栈 

函数 调用 是 操作 系统 很 重要 的 一 个 方面 。 应 用 程序 通过 函数 调用 的 方式 来 使 用 操作 系统 提供 的 服 
务 ， 例 如 创建 进程 或 进行 O 操作 。 当 操作 系统 在 进程 间 切换 时 ， 其 必须 管理 这 些 独立 的 函数 调用 。 
下 面 将 定义 一 些 与 函数 调用 有 关 的 重要 概念 。 

调用 约定 “函数 调用 及 其 返回 过 程 中 所 需要 的 步骤 称 为 调用 约定 。 使 用 约定 这 个 术语 是 因为 在 此 
过 程 中 硬件 对 于 细节 并 不 了 解 。 相 反 ， 硬 件 设计 对 于 一 些 可 能 的 方法 进行 了 一 些 约束 ， 并 留 给 编译 器 
的 开发 者 很 多 选择 。 可 以 看 到 ， 因 为 操作 系统 通过 调用 函数 来 触发 中 断 并 从 一 个 进程 切换 到 另 一 个 进 
程 ， 所 以 它 必须 理解 并 支持 与 编译 器 相同 的 约定 。 

运行 时 栈 ”静态 域 的 语言 ， 比 如 C 语言 ， 需 要 使 用 运行 时 栈 来 存储 与 函数 调用 有 关 的 状态 。 编 译 
器 在 栈 中 为 已 经 调用 的 函数 分 配 了 足够 的 空间 以 保存 活动 记录 。 这 个 分 配 的 空间 就 是 栈 帧 。 每 个 活动 
记录 包含 与 调用 有 关 的 局 部 变量 空间 、 临 时 存储 空间 、 返 回 地 址 和 其 他 一 些 五 花 八 门 的 东西 。 约 定 还 
规定 一 个 栈 向 下 增长 时 ， 内 存 地 址 逐渐 减 小 。 因 此 ， 当 一 个 函数 调用 发 生 时 ， 运 行 时 栈 在 内 存 中 向 下 
增长 来 保存 函数 调用 的 活动 记录 。 

和 参数” 当 一 个 函数 被 调用 时 ， 调 用 者 必须 根据 参数 列表 提供 一 组 真实 的 参数 。 在 大 多 数 RISC 架构 
中 有 固定 数量 的 参数 通过 寄存 器 传输 ， 剩 余 的 参数 通过 内 存 传 输 。 示 例 代码 中 使 用 AO ~ A3 寄存 器 传 
递 前 4 个 参数 ; 超过 4 个 的 参数 作为 活动 记录 放 在 栈 中 。 

PPM AS “编译 器 需要 计算 栈 帧 所 用 的 空间 ， 并 为 每 一 个 局 部 变量 分 配 空间 。 然 而 ， 操 作 系 统 
需要 知道 参数 具体 是 怎么 存放 的 。 在 示例 代码 中 ， 每 一 个 栈 帧 中 最 高 位 的 字 是 用 来 存放 返回 地 址 的 ， 
最 低 的 4 个 字 是 参数 保留 空间 ， 在 参数 保留 空间 之 上 是 除去 前 4 个 参数 以 外 的 一 系列 参数 。 图 3-5 解 
释 了 这 一 格式 。 

有 趣 的 是 ， 在 函数 中 占据 了 最 低 4 个 字 的 参数 保留 空间 却 没 有 被 函数 所 使 用 到 。 相 反 的 ， 这 个 
区 域 被 /调用 的 函数 所 使 用 。 如 图 3-5 所 示 ， 如 果 函 数 蕊 调用 函数 了 Y， 那 么 由 函数 工 在 栈 中 开辟 的 最 低 
4 个 字 的 空间 将 被 了 使 用 。 

我 们 可 以 通过 观察 前 4 个 参数 是 由 寄存 器 AO ~ A3 传递 的 这 一 现象 来 理解 参数 保留 区 域 的 必要 性 。 
例如 ， 假 设 函数 了 调用 了 函数 Y， 并 传递 参数 gq。 那么 当 函 数 了 开始 运行 时 ， 寄 存 器 AO 将 保存 9 的 值 。 
如 果 在 函数 了 中 又 调用 了 函数 Z 并 传递 了 参数 r-， 那 么 这 时 候 AO 将 用 于 保存 r 的 值 ， 函 数 了 必须 履 盖 
为 了 保留 的 g 值 。 为 了 保证 g 的 值 不 丢失 ,了 在 调用 Z 之 前 将 9 的 值 保存 到 栈 中 ， 并 在 Z 返回 之 后 从 








O 尽管 在 嵌入 式 系统 中 有 很 多 忽略 地 址 高 位 的 情况 放生 ， 很 多 计算 机 系统 还 是 将 地 址 空间 严格 控制 在 物理 内 存 的 
范围 之 内 ， 而 将 访问 其 他 的 地 址 视 为 错误 。 
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。 返回 地 址 函数 X 
的 返回 地 址 
函数 X 的 栈 由 
(调用 函数 ) 
函数 7 中 使 用 到 的 
| 保留 空间 A0 ~ A3 
( o BERRY 
的 返回 地 址 
函数 7 的 本 帧 J 
(被 调用 函数 ) = 当 7 调 用 函数 时 为 多 余 参 数 
所 准备 的 空间 
| 为 了 调用 的 函数 所 准备 
的 保留 空间 
当前 栈 指针 一 一 > 人 


图 3-5 当 函 数 开 调用 函数 了 时 两 个 栈 帧 的 格式 


栈 中 恢复 这 些 值 。 理 论 上 ,了 了 可 以 使 用 内 存 中 的 任意 位 置 保存 A0 中 的 值 一 一 在 调用 结构 中 使 用 保留 参 
数 空间 只 是 与 编译 器 所 使 用 的 约定 一 致 。 

作为 进一步 的 约定 ， 帧 指针 寄存 器 是 不 允许 使 用 的 。 相 反 ， 编 译 器 计算 每 一 个 函数 所 需要 的 栈 空 
间 (包含 4 个 字 的 参数 保留 空间 )， 并 在 函数 被 调用 时 使 代码 对 应 的 栈 指针 减少 正确 的 大 小 。 因 为 
RISC 处 理 器 并 不 包含 将 值 压 栈 的 指令 ， 所 以 编译 器 可 以 通过 一 个 从 栈 指针 固定 的 偏 移 量 计算 出 每 一 个 
局 部 变量 的 地 址 。 

总 结 : 

当 引 用 局 部 变量 或 运行 栈 中 的 参数 时 ,操作 系统 将 遵从 编译 器 的 调用 约定 。 在 贯穿 本 书 
的 示例 中 ， 所 有 引用 都 是 以 栈 指 针 偏 移 量 的 形式 给 出 。 


3.10 中断 和 中 断 处 理 


现代 计算 机 提供 了 一 种 机 制 使 得 外 部 的 VO 设备 能 够 中 断 正在 进行 的 计算 。 通 常 ， 处 理 器 有 一 个 
类 似 的 异常 机 制 ， 在 异常 或 错误 发 生 时 通知 软件 (例如 ， 应 用 程序 尝试 除 以 0 或 请 求 虚拟 内 存 中 的 页 
表 ) 。 从 操作 系统 的 角度 看 ， 中 断 是 基础 ， 因 为 它 允 许 CPU 同时 进行 计算 并 处 理 V/O 操作 ?。 

任何 连接 在 总 线 上 的 LO 设备 在 需要 服务 时 都 可 以 向 处 理 器 发 送 中 断 请 求 。 为 了 实现 上 述 功能 ， 
这 些 设备 会 在 总 线 的 控制 线 上 放置 一 个 信号 。 在 常规 的 获取 - 处 理 循 环 中 ， 处 理 器 中 的 硬件 对 控制 线 
进行 监控 ， 并 在 控制 线 有 信和 号 时 初始 化 中 断 处 理 过 程 。 以 RISC 处 理 器 为 例 ， 主 处 理 器 并 不 包含 处 理 中 
断 的 硬件 。 相 反 ， 协 处 理 器 会 代替 主 处 理 器 来 与 总 线 交换 信息 并 处 理 中 汤 过 程 。 

例如 ， 当 一 个 设备 发 生 中 断 时 ，MIPS 处 理 器 执行 以 下 三 个 重要 步 又 : 

e 设置 控制 位 ， 不 允许 新 的 中 断 。 

e 记录 将 要 执行 的 指令 地 址 。 

© 跳 转 至 保留 位 置 0x80000180。 

第 一 步 保 证 当 系 统 处 理 一 个 设备 产生 的 中 断 时 ， 不 会 被 其 他 设备 再 次 中 断 。 第 二 步 为 操作 系统 提 
供 了 一 种 在 处 理 完 中 断后 返回 继续 执行 普通 代码 的 方式 。 第 三 步 使 得 无 论 中 断 在 何 时 发 生 ， 操 作 系 统 





日 ”后 续 章 节 将 介绍 操作 系统 如 何 管理 中 断 的 过 程 ， 并 且 解 释 用 户 发 起 的 高 层 VO 请 求 操作 如 何 与 底层 的 设备 硬件 
机 制 发 生 联 系 。 
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都 能 够 获得 控制 权 。 在 中 断 发 生前 ， 操 作 系统 必须 在 保留 位 置 (0x80000180) 存储 中 断 处 理 代码 。 编 
译 器 和 加 载 器 从 0x80010000 (一 个 中 断 处 理 程序 的 位 置 ) 启动 操作 程序 ， 从 而 保证 在 保留 位 置 的 中 断 
处 理 程序 不 会 受到 操作 系统 中 其 他 值 的 影响 。 在 系统 启动 时 ， 我 们 的 示例 系统 会 在 保留 区 域 存 储 一 段 
指令 ， 无 论 中 断 何 时 发 生 ， 这 段 指令 都 可 以 使 处 理 器 跳 转 至 操作 系统 。 

当 操 作 系统 处 理 全 局 数据 和 IO 队列 时 ， 它 必须 防止 中 断 的 发 生 。 这 种 防止 机 制 由 硬件 提供 。 例 
如 ， 协 处 理 器 中 的 一 个 寄存 器 被 用 做 操作 系统 的 中 断 屏蔽 ， 用 来 指定 哪些 设备 被 允许 产生 中 断 。 这 个 
屏蔽 的 每 一 位 都 对 应 于 系统 中 的 某 一 个 中 断 源 。 中 断 源 可 以 是 系统 总 线 上 的 设备 、 内 部 定时 器 ， 或 者 
特殊 处 理 器 操作 码 的 执行 。 所 有 位 的 初 值 均 为 0， 表 示 所 有 的 源 都 不 可 以 产生 中 断 。 当 操作 系统 启动 
IO 设备 时 ， 操 作 系 统 会 将 相应 的 屏蔽 位 置 1， 从 而 使 该 设备 可 以 产生 中 断 。 

除了 每 个 设备 的 对 应 位 外 ， 中 断 屏 项 还 包含 一 个 全 局 中 断 状 态 位 。 如 果 将 它 设 置 为 0， 无 论 设备 
本 身 的 位 是 0 还 是 1， 中 断 都 不 会 发 生 。 在 后 面 的 章节 将 看 到 函数 disable 和 restore 操作 全 局 状态 位 ， 
从 而 使 操作 系统 能 够 暂时 禁止 所 有 中 断 ， 以 后 再 恢复 中 断 。 

图 3-6 列 出 了 与 中 断 有 关 的 协 处 理 器 寄存 器 并 介绍 了 每 一 个 的 设计 目的 。 


寄存 器 功能 


STATUS 表示 中 断 状 态 ， 包 含 一 个 EXL 位 指定 当前 中 断 是 否 已 处 理 、 一 个 全 局 
位 表示 所 有 的 中 断 是 否 被 禁止 ， 以 及 每 个 中 断 源 对 应 一 个 中 断 位 


CAUSE 表示 中 断 或 异常 发 生源 的 唯一 标识 位 
EPC 异常 程序 计数 器 ， 用 于 记录 异常 处 理 完 成 后 应 返回 的 正常 程序 的 位 置 





























图 3-6 与 中 断 有 关 的 协 处 理 器 寄存 器 


处 理 融 通过 询问 协 处 理 吉 控制 寄存 器 的 方式 来 判断 哪 一 个 设备 发 生 了 中 断 ， 然 后 与 其 进行 交互 。 
一 旦 中 断 处 理 完成 ,处理 器 可 以 运行 中 断 返 回 指 令 ， 恢复 普通 代码 的 执行 。 之 后 的 章节 将 提供 中 断 处 
理 的 示例 以 及 处 理 器 与 不 同 设 备 交互 的 步骤 。 


3.11 异常 处 理 


尽管 异常 是 由 处 理 器 而 不 是 独立 的 VO 设备 产生 ,但 MIPS 硬件 将 异常 处 理 与 中 断 处 理 合 二 为 一 。 
也 就 是 说 ， 异 常 处 理 和 中 断 处 理 使 用 相同 的 硬件 步骤 来 完成 : 设置 EXL 位 来 防止 进一步 的 中 断 ， 在 
EPC 寄存 器 中 记录 产生 异常 的 代码 地 址 ， 跳 转 至 0x80000180。 

处 理 器 处 理 中 断 和 异常 还 是 存在 细微 的 差异 。 当 中 断 发 生 时 ,处 理 器 总 是 处 在 刚 执行 完 当 前 指令 ， 
正 准备 执行 下 一 条 指令 的 时 刻 。 因 此 ，EPC 寄存 器 存储 的 是 下 一 条 待 执 行 的 指令 。 当 异常 发 生 时 ， 当 
前 指令 正在 执行 ， 因 此 EPC 寄存 器 记录 正在 执行 的 指令 地 址 。 当 处 理 器 从 异常 返回 后 ， 这 条 指令 将 被 
重新 执行 。 例 如 ， 如 果 发 生 页 错误 ,异常 处 理 程序 会 从 内 存 中 读 取 缺失 页 ， 返 回 发 生 异 常 的 点 并 重 行 
执行 导致 页 错误 的 指令 。 


3.12 ”计时 器 硬件 


除了 外 部 O 设备 外 ，E2100L 硬件 还 包括 计时 器 设备 。 当 它 结束 时 ， 定 时 器 就 会 产生 一 个 中 断 ， 
也 就 是 说 ， 如 果 计 时 器 中 断 是 允许 的 ， 那 么 处 理 器 就 必须 准备 好 处 理 该 中 断 。 

在 一 些 艇 入 式 操作 系统 中 ， 所 有 的 计时 器 函数 都 是 通过 实时 硬件 时 钟 有 规律 地 产生 时 钟 中 断 来 实 
现 的 (比如 ， 每 秒 OO 次 中 断 )。 然 而 ， 在 E2100L 上 定时 器 包含 两 个 处 理 器 可 读 的 寄存 器 : 

e 计数 器 : 给 计数 寄存 器 设置 一 个 初始 值 。 

e 限制 器 : 限制 寄存 器 用 于 指定 等 待 时间 。 
硬件 使 用 CPU 时 钟 作为 计时 依据 ， 每 个 时 钟 周期 都 会 对 计数 寄存 器 加 一 。 当 计数 器 的 值 达到 限制 器 中 
的 值 时 ， 将 触发 计时 器 中 断 。 

实时 时 钟 方法 与 E2100L 定时 器 机 制 各 有 优势 。E2100L 的 主要 优势 是 产生 更 少 的 中 断 。 与 实时 时 
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钟 持续 产生 中 断 不 同 ， 定 时 器 只 在 预 设 的 超时 发 生 时 触发 中 断 。 实 时 时 钟 的 优势 是 它 能 够 将 中 断 直接 
与 实时 时 间 相 联系 ， 而 不 需要 借助 处 理 器 时 钟 。 当 然 ， 如 果 你 知道 处 理 器 频率 ， 那 么 将 其 转换 为 真实 
时 间 是 可 能 的 。 不 幸 的 是 ， 这 种 计算 依赖 计算 机 CPU 速度 ， 也 就 是 说 ， 操 作 系 统 不 调整 换算 使 用 的 党 
数 ， 就 不 能 直接 移植 到 更 快 的 处 理 器 上 。 


3.19 RATES 

串 行 通信 广泛 存在 于 现存 的 YO 设备 中 ， 这 一 技术 已 经 使 用 了 数 十 年 。 E2100L 包含 一 个 RS-232 
串 行 通信 设备 作为 系统 控制 台 。 与 大 多 数 串 行 设备 一 样 ，E2100L 能 够 处 理 输入 与 输出 (也 就 是 说 ， 同 
时 包含 发 送 与 接收 字符 ) 。 当 中 断 发 生 时 ， 处 理 器 必须 检查 设备 寄存 器 以 确定 输出 端的 字符 发 送 和 输入 
端的 字符 接收 是 否 完成 。 第 15 章 将 详细 讲述 串 行 中 断 。 


3.14 ” 轮 询 与 中 断 驱 动 |/O 


大 多 数 由 操作 系统 驱动 的 VO 设备 都 使 用 中 断 机 制 。 操 作 系统 先 与 一 个 设备 交互 并 发 起 一 个 操作 
(输入 或 者 输出 ) ， 然 后 再 完成 计算 。 当 LO 操作 完成 时 ,设备 中 断 处 理 器 ,操作 系统 可 以 选择 启动 男 
一 个 操作 。 

尽管 中 断 机 制 优化 了 并 发 性 并 允许 多 设备 并 行 处 理 计算 ,但 中 断 机 制 并 不 是 在 任何 情况 下 都 能 使 
用 。 例 如 ， 如 果 在 操作 系统 初始 化 中 断 和 LAO 之 前 需要 向 用 户 展示 一 个 欢迎 界面 ， 又 比如 一 个 程序 员 
需要 调试 新 的 O 代码 时 ， 上 述 两 种 情况 下 中 断 机 制 都 是 无 法 使 用 的 。 

替代 中 断 驱动 VO 的 方法 称 为 轮 询 V0。 当 处 理 器 启动 了 一 个 VO 操作 ,但 并 不 能 够 进行 中 断 时 ， 
可 以 使 用 轮 询 YO。 操 作 系统 进入 一 个 循环 ， 并 不 断 地 检查 设备 状态 寄存 器 来 判断 操作 是 否 结束 。 在 
第 2 章 讨论 kpute 和 kprintf 的 时 候 已 经 看 到 过 操作 系统 设计 师 如 何 使 用 轮 询 VO 机 制 的 例子 。 


3.15 ”内 存 缓存 和 KSEGI 


记得 尽管 在 地 址 空间 中 KSEGI 在 KSEGO 之 后 ,但 是 在 内 存 空间 中 它们 是 重复 的 。 所 以 ，KSEG1 
的 第 一 个 字 节 指向 了 具有 相同 物理 内 存 地 址 的 KSEGO 的 第 一 个 字 节 。 
尽管 看 起 来 是 重复 的 ,但 是 硬件 强调 了 这 两 个 内 存 段 差别 的 重要 性 : 
当 处 理 器 引用 KSEGO 的 地 址 时 ， 将 引用 传送 到 总 线 (也 就 是 系统 主板 ) ZH, FARA 
LI 内 存 缓存 ; 当 处 理 器 引用 KSEG1 的 地 址 时 ， 将 它 直 接 传送 到 总 线 。 
对 于 普通 的 数据 引用 ， 内 存 缓存 提供 了 重要 的 优化 一 一 如 果 处 理 器 短 时 间 内 对 同一 物理 地 址 进行 
了 多 次 引用 ， 那 么 缓存 硬件 返回 值 比 从 内 存 引 用 要 快 得 多 。 然 而 ， 在 处 理 L/O 时 ,缓存 会 产生 不 正确 
的 结果 。 例 如 ， 一 段 代 码 使 用 轮 询 LO 机 制 并 检查 设备 的 状态 。 如 果 缓 存 保存 了 访问 设备 之 前 的 状态 
值 ， 那 么 处 理 器 就 不 会 得 到 当前 设备 状态 的 准确 值 。 所 以 ， 操 作 系统 遵守 了 以 下 简明 的 准则 : 
为 了 避免 从 内 存 缓存 中 获取 旧 的 值 ， 每 一 个 IO 引用 (包括 DMA 指定 的 地 址 ) 必须 使 
用 KSEGI, 


3.16 存储 布局 

当 C 编译 器 编译 一 个 程序 时 ， 它 将 结果 镜像 切 分 成 4 个 内 存 段 : 

。 代码 段 

e 数据 段 

e bss 段 

© FRE 

代码 段 包 含 了 主 程序 的 源码 和 所 有 函数 ， 占 据 最 低 的 地 址 空间 。 数 据 段 包括 所 有 初始 化 数据 ， 占 
据 文 本 段 地 址 空间 之 后 的 区 域 。 非 初始 化 数据 段 称 为 bss 段 ， 它 紧 接 在 数据 段 之 后 。 最 后 ， 栈 段 占 据 
了 地 址 空间 的 最 高 部 分 并 向 低地 址 增长 。 图 3-7 说 明了 上 述 概 念 结构 : 

图 中 etext、edata 和 end 表示 加 载 器 插入 目标 程序 的 全 局 变量 。 它 们 的 名 字 相 应 地 初始 化 在 代码 、 
数据 和 bss 段 上 。 因 此 ， 一 个 正在 运行 的 程序 可 以 通过 计算 在 bss 段 底部 的 end 和 栈 段 栈 顶 地 址 ( 即 SP 
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指针 ) 的 差 值得 出 程序 剩余 的 内 存 容量 。 
最 低地 址 SP 


etext edata end 
bss 段 | 
图 3-7 C 编译 器 创建 的 内 存 段 示意 图 
第 9 章 将 阐述 多 处 理 器 的 内 存 分 配 机 制 。 尽 管 所 有 处 理 器 共享 代码 、 数 据 和 bss 段 ， 但 是 所 有 的 处 
理 器 必须 分 配 独立 的 栈 段 。 如 果 3 个 处 理 器 ， 那 么 栈 的 分 配 就 如 图 3-8 所 示 从 最 高 的 内 存 地 址 连续 向 
下 分 配 s 
如 图 3-8 所 示 ， 每 一 个 处 理 器 都 有 自己 的 栈 指 针 。 在 任何 一 个 给 定 的 时 刻 ， 处 理 器 ; 的 栈 指针 必须 
指向 一 个 分 配给 第 i 个 处 理 器 的 栈 空间 。 后 面 的 章节 将 详细 介绍 这 一 概念 。 
最 低地 址 SP, SP, SP, 


etext edata end | 














图 3-8 3 个 处 理 器 情况 下 内 存 栈 段 示 意图 


3.17 ”内存 保护 

E2100L 的 内 存 硬 件 有 多 段 机 制 可 以 为 操作 系统 提供 保护 。 应 用 程序 可 以 设置 为 用 户 态 ， 从 而 不 能 
读 、 写 内 核 段 的 内 存 空间 。 当 应 用 程序 调用 一 个 系统 调用 时 ， 控 制 权 将 交 给 内 核 ， 系 统 权 限 将 提升 至 
内 核 态 直到 调用 返回 。 理 解 这 一 保护 机 制 的 关键 是 控制 权 的 传递 只 能 在 操作 系统 设计 者 指定 的 人 口 进 
行 。 这 样 ， 设 计 者 才能 保证 应 用 程序 获得 严格 控制 的 服务 。 

像 大 部 分 的 能 入 式 操 作 系 统一 样 ， 我 们 的 示例 系统 降低 了 内 存 保护 的 复杂 度 ， 避 免 了 常规 的 运行 
时 内 存 保护 。 相 反 ， 代 码 将 完全 运行 在 KSEGO 上 ， 并 且 所 有 进程 都 以 内 核 权 限 运 行 。 缺 少 保护 也 就 意 
昧 着 程序 员 需 要 非常 小 心 ， 因 为 任何 进程 都 能 够 访问 内 存 的 任何 位 置 ， 包 括 分 配给 操作 系统 和 其 他 处 
理 器 栈 的 空间 。 如 果 一 个 进程 溢出 了 分 配给 它 的 内 存 区 域 ， 那 么 进程 的 运行 时 栈 将 履 盖 其 他 进程 栈 的 
数据 。 后 面 章节 将 讨论 一 个 技术 软件 ， 它 可 以 用 来 帮助 探测 溢出 。 


3.18 MA 


对 处 理 器 和 VO 设备 来 说 ， 它 们 的 硬件 规格 说 明 包含 了 太 多 的 细节 以 至 于 难以 学 习 。 幸 运 的 是 ， 
处 理 器 的 许多 不 同 都 是 表面 的 一 一 基础 的 概念 在 大 多 数 硬件 平台 中 都 是 通用 的 。 因 此 ， 在 学 习 这 些 硬 
件 时 ， 应 该 注重 整体 架构 和 设计 原理 而 不 是 小 的 细节 。 


练习 

3.1 有 些 系统 使 用 可 编程 的 中 断 地 址 机 制 ， 允 许 系统 选择 当中 断 发 生 时 进程 应 该 跳 转 的 地 址 。 请 问 可 编 
程 中 断 机 制 的 优势 是 什么 ? 

3.2 DMA 有 引入 未 知 错误 的 可 能 性 。 如 果 一 个 DMA 操作 从 最 高 内 存 地 址 小 于 入 字 节 的 内 存单 元 开始 
传输 N 字 节 会 发 生 什么 情况 ? 

3.3 阅读 有 关 使 用 多 级 中 断 的 硬件 的 文章 。 当 操作 系统 正在 处 理 其 他 级 中 断 的 时 候 ， 在 某 一 级 别 的 
中 断 能 不 能 够 打 断 操作 系统 ”请 解释 原因 。 

3.4 图 3-7 中 所 展示 的 内 存 布局 的 优点 是 什么 ? 它 是 不 是 有 缺点 ? 在 什么 方面 其 他 的 布局 是 有 用 的 ? 

3.5 艇 入 式 硬件 经 常 包含 多 个 独立 的 计时 器 ， 每 一 个 计时 器 都 有 自己 的 中 断 源 。 为 什么 说 多 计时 器 
是 有 用 的 ? 一 个 只 有 单一 计时 器 的 系统 能 不 能 达到 多 计时 器 的 所 有 功能 ? 请 解释 原因 。 

3.6 ”如果 你 熟悉 汇编 语言 ， 请 阅读 用 于 允许 函数 递归 调用 的 调用 规约 。 建 立 一 个 使 用 递归 调用 的 函 
数 ， 并 阐述 你 的 函数 能 够 正确 地 运行 。 


25 


[45 | 


[46] 





[49] 








50 








第 4 章 | 


Operating System Design: The Xinu Approach, Linksys Version 


链表 与 队列 操作 


如 果 某 一 天 需要 找 出 一 个 牺牲 者 ， 我 倒是 早 就 准备 了 一 份 小 小 的 链表 …… 





一 一 W. S. Gilbert 


4.1 引言 


链表 操作 是 操作 系统 中 相当 基础 的 操作 ， 并 且 遍 及 其 每 一 个 组 件 。 链 表 数 据 结构 使 得 系统 可 以 高 
效 地 管理 一 系列 的 对 象 而 不 需要 搜索 或 复制 。 就 像 我 们 将 看 到 的 那样 ， 在 进程 管理 中 这 是 尤为 重要 的 。 

本 章 介绍 了 一 系列 构成 链表 操作 的 核心 函数 。 这 些 函 数 体现 了 一 个 统一 的 方法 一 一 操作 系统 的 不 
同 层 次 都 使 用 统一 的 数据 结构 和 统一 的 结 点 集合 来 维护 各 个 进程 。 我 们 将 看 到 这 些 数据 结构 和 函数 如 
何 来 创建 一 个 新 链表 ， 如 何在 队 尾 插入 一 个 项 ， 如 何在 有 序 队列 中 插入 一 个 项 ， 如 何 移 除 队列 首 项 ， 
以 及 如 何 从 队列 的 任意 位 置 移 除 某 项 ” 。 

链表 函数 相当 易于 理解 ， 因 为 系统 假设 同一 时 间 只 有 一 个 进程 访问 一 个 链表 函数 。 因 此 ， 读 者 可 
以 将 代码 视 为 一 个 串 行 程序 一 一 没有 必要 担心 来 自 其 他 进程 的 干预 。 此 外 ， 示 例 代 码 介绍 了 多 个 贯穿 
全 书 的 编程 约定 。 


4.2 用 于 进程 链表 的 统一 数据 结构 

进程 管理 器 管理 着 进程 。 尽 管 任意 时 刻 一 个 进程 只 出 现在 一 个 链表 中 ， 但 是 进程 管理 器 频繁 地 将 
进程 从 一 个 链表 转移 到 另 一 个 链表 。 事 实 上 ， 进 程 管理 器 并 不 存储 进程 的 所 有 细节 。 相 反 ， 进 程 管理 
器 仅仅 保存 进程 的 D， 一 个 用 来 表示 进程 的 非 负 整数 。 出 于 方便 的 考虑 ， 我 们 将 交替 使 用 术语 进程 和 
itf ID, 

Xinu 的 早期 版 本 有 很 多 进程 链表 ， 每 个 链表 都 有 自己 的 数据 结构 。 一 些 由 先进 先 出 (FIFO) 队列 
组 成 ， 另 一 些 由 键 值 排序 。 一 些 链表 是 单 向 链接 的 ; 另 一 些 则 需要 双向 链接 来 保证 某 一 项 可 以 在 链表 
中 的 任意 位 置 高 效 地 插入 或 删除 。 当 需求 被 形式 化 之 后 ， 就 会 发 现 将 进程 链表 集中 到 某 个 单一 的 数据 
结构 将 会 大 大 缩减 代码 量 并 减少 特殊 分 支 。 也 就 是 说 ， 不 是 用 6 个 分 开 的 链表 操作 函数 ， 而 是 用 单一 
的 一 个 函数 集合 来 处 理 所 有 情况 。 

为 了 适应 所 有 情况 ， 我 们 选择 了 一 个 拥有 下 列 属性 的 代表 。 

。 所 有 的 链表 都 是 双向 链接 ， 也 就 是 说 ， 一 个 结 点 既 指向 前 驱 结 点 也 指向 后 继 结 点 。 

。 每 个 结 点 都 存储 一 个 键 值 和 一 个 进程 ID ， 尽 管 键 值 并 不 在 FIFO 链表 中 使 用 。 

。 每 个 链表 都 有 头 、 尾 结 点 ， 头 、 尾 结 点 占用 和 其 他 结 点 相同 的 内 存 。 

。 非 先进 先 出 队列 是 以 降序 排列 的 。 头 结 点 的 键 值 是 最 大 的 ， 尾 结 点 的 键 值 是 最 小 的 。 

图 4-1 解释 了 链表 数据 结构 的 基本 概念 ， 图 中 链表 是 包含 两 个 项 的 链表 。 


前 驱 指 针 进程 号 键 值 后 继 指针 








大 于 最 大 键 值 小 于 最 小 键 值 
图 4-1 一 个 双向 链表 的 概念 结构 ， 它 包含 了 进程 4 和 进程 2， 键 值 分 别 为 25 和 14 





日 ”尽管 链表 操作 通常 在 “数据 结构 ”的 课程 中 提 及 ， 但 是 我 们 仍然 讨论 这 个 话题 ， 因 为 数据 结构 非 比 寻 常 ， 它 组 
成 了 操作 系统 的 关键 部 分 。 
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正如 预期 的 那样 ， 尾 结 点 的 后 继 和 头 结 点 的 前 驱 结 点 都 是 空 的 《null) 。 当 一 个 链表 为 空 时 ， 头 结 
点 的 后 继 为 尾 结 点 ， 尾 结 点 的 前 驱 是 头 结 点 ， 如 图 4-2 所 示 。 














头 结 点 尾 结 点 
-| =k | _ i 
大 于 最 大 键 值 | 小 于 最 小 键 值 
图 4-2 一 个 空 链表 


4.3 简洁 的 链表 数据 结构 

嵌入 式 系统 中 的 一 个 关键 设计 目标 就 是 减少 内 存 的 使 用 。 不 同 于 使 用 传统 的 链表 实现 ，Xinu 在 两 
个 方面 优化 了 内 存 需求 : 

。 相对 指针 

。 隐 式 数据 结构 

为 了 理解 优化 ， 我 们 需要 知道 大 多 数 操作 系统 设置 了 一 个 进程 数量 上 限 。 在 Xinu 中 ,常量 
NPROC 指定 了 这 个 上 限 ， 进 程 标识 符 的 范围 是 0 ~ NPROC - 1。 在 大 多 数 戏 入 式 系统 中 ，NPROC 相当 
小 〈 小 于 50) 。 我 们 之 后 将 看 到 一 个 较 小 的 限制 会 使 优化 工作 更 好 。 

相对 指针 ”为 了 理解 相对 指针 的 设计 动机 ， 我 们 考虑 传统 指针 占用 的 空间 。 在 32 位 架构 中 ， 每 个 
指针 占用 4 字 节 。 如 果 系 统 有 小 于 50 个 的 结 点 ， 那 么 指针 需要 的 空间 可 以 由 连续 的 内 存 以 及 0 ~49 的 
数值 代替 。 也 就 是 说 ， 可 以 将 结 点 分 配给 一 个 数组 ， 数 组 的 索引 可 以 代 蔡 结 点 的 指针 。 

隐 式 数据 结构 第 二 种 优化 关注 于 从 所 有 结 点 中 省 略 进程 的 ID 字段 。 此 类 省 略 是 可 行 的 ， 因 为 : 

一 个 进程 在 任 一 时 刻 只 会 在 一 个 链表 中 。 

为 了 省 略 进程 D， 使 用 一 个 数组 并 且 用 第 i 个 元 素 代表 进程 ID i。 因 此 ， 在 链表 中 插入 结 点 3 就 是 
放 入 了 进程 3。 因 此 ， 结 点 的 相对 路 径 和 存放 进程 的 了 D 一 致 。 

图 4-3 说 明了 图 4-1 中 的 链表 如 何 被 采用 了 相对 指针 和 隐 式 标识 符 的 数组 来 代替 。 数 组 的 每 个 项 
有 三 个 字段 : 键 值 、 前 驱 结 点 的 索引 、 后 继 结 点 的 索引 。 头 结 点 的 索引 为 60， 尾 结 点 的 索引 为 61。 

键 值 前 驱 索 引 后 继 索 引 














0 
1 
2 每 一 行 对 应 
3 一 个 进程 
4 
5 
概念 边界 
NIE NEROCI a SNS 
例子 链表 的 头 结 点 ~、、。 Bisol) 
61 








例子 链表 的 尾 结 点 一 ” 





图 4-3 图 4-1 中 的 链表 的 队列 数组 


因为 后 继 和 前 驱 字 段 包含 的 是 相对 指针 〈 如 数组 索引 ) ， 所 以 字段 的 大 小 取决 于 数组 的 大 小 。 例 
如 ， 如 果 一 个 数组 包含 小 于 256 个 元 素 ， 那 么 一 个 字 节 就 能 满足 所 有 相对 指针 的 需求 。 
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Xinu 使 用 术语 队列 表 来 代替 数组 。 理 解 这 个 数据 结构 的 关键 是 观察 元 素 中 小 于 索引 NPROC 的 与 
大 于 它 的 索引 的 区 别 。 位 置 0 ~ NPROC -1 的 每 一 个 对 应 于 系统 中 的 一 个 进程 。NPROC 以 及 更 大 的 索 
引 是 用 来 保存 头 尾 结 点 的 。 这 个 数据 结构 可 行 的 原因 是 头 、 尾 结 点 在 编译 阶段 就 知道 它们 的 索引 号 ， 
并 且 一 个 进程 在 任 一 时 刻 只 能 出 现在 一 个 链表 中 。 


4.4 队列 数据 结构 的 实现 
为 了 将 进程 i 放 入 队列 中 ， 索 引 为 i 的 结 点 要 加 入 链表 中 。 仔 细 看 看 下 面 代 码 会 让 我 们 的 思路 变 得 
清晰 。 在 Xinu 中 ， 图 4-3 中 的 队列 表 命 名 为 queuetab, ， 用 来 存放 qenrty 的 数组 。 文 件 queue. h 包含 了 


queeutab 和 qentry 的 声明 。 
/* queue.h - firstid, firstkey, isempty, lastkey, nonempty vf 


/* Queue structure declarations, constants, and inline functions */ 


/* Default # of queue entries: 1 per process plus 2 for ready list plus */ 
1% 2 for sleep list plus 2 per semaphore */ 
#ifndef NQENT 

#define NOENT (NPROC + 4 + NSEM + NSEM) 


#endif 

#define EMPTY (-1) /* null value for qnext or qprev index */ 

#define MAXKEY  Ox7FFFFFFF /* max key that can be stored in queue */ 

#define MINKEY  0x80000000 /* min key that can be stored in queue */ 

struct gentry { /* one per process plus two per list ey 
int32 qkey; /* key on which the queue is ordered ai? 
qid16 qnext; /* index of next process or tail bay | 
qidle qprev; /* index of previous process or head a.) 


}; 


extern struct gentry queuetab[]; 


/* Inline queve manipulation functions */ 


#define queuehead (q) (q) 

#define queuetail (q) ((q) + 1) 

#define firstid(q) (queuetab [queuehead (q) ] .qnext) 
#define lastid(q) (queuetab[queuetail (q) ] .qprev) 
#define isempty(q) (firstid(q) >= NPROC) 

#define nonempty (q) (firstid(q) < NPROC) 

#define firstkey(q) (queuetab[firstid(q)].qkey) 
#define lastkey (q) (queuetab[ lastid(q) ] .qkey) 


/* Inline to check queue id assumes interrupts are disabled */ 


#define isbadqid(x) (((int32) (x) < 0) || (int32) (x) >= NQENT-1) 
/* Queue function prototypes */ 


pid32 getfirst (qid16) ; 

pid32 getlast (qid16); 

pid32 getitem(pid32) ; 

pid32 enqueue (pid32, qid16); 
pid32 dequeue (qid16) ; 

status insert(pid32, qidl6, int); 
status insertd(pid32, qidl6, int); 
qidi6 newqueue (void); 
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queuetab 数组 包含 了 NQENT 个 表 项 。 如 图 4-3 中 所 示 ， 一 个 重要 隐 式 边界 出 现在 NPROC - 1 和 
NPROC 之 间 。 小 于 该 边界 的 每 个 元 素 对 应 于 一 个 进程 ID ， 元 素 queuetab[ NPROC ] ~ queuetab[ NQENT ] 
对 应 于 链表 的 头 或 尾 。 

queue. h 引入 了 多 种 C 语言 的 特性 和 本 书 中 所 使 用 的 编程 习惯 。 因 为 以 h 结尾 的 文件 将 会 被 其 
他 程序 引用 (“h” 代 表 头 文件 ) 。 此 类 文件 经 常 包含 一 些 全 局 数据 结构 的 声明 、 符 号 常量 ， 以 及 用 
于 操作 数据 结构 的 内 联 函 数 (FE). queue. h 文件 定义 queuetab 为 一 个 外 部 变量 全 局 变量 ) ， 意 味 
着 每 个 进程 都 可 以 访问 这 个 数组 。 该 文件 还 定义 了 数据 结构 所 使 用 的 符号 常量 ， 如 EMPTY 用 于 定义 
空 链表 。 

符号 常量 NOENT 定义 queuetab 数组 中 的 表 项 总 数 ， 该 定义 为 条 件 定义 。 语 句 #ifndef NQENT 的 意 
思 是 “ 仅 当 NQENT 没有 定义 时 ， 将 到 #endif 的 代码 进行 编译 "。NQENT 被 赋 的 值 为 ， 

NPROC +4+NSEM +NSEM 
在 queuetab 中 为 NPROC 个 进程 、NSEM 个 信号 量 链表 的 头 结 点 和 层 结 点 、 一 个 就 绪 链 表 、 一 个 睡眠 链 
表 分 配 足 够 的 人 口 。 使 用 条 件 编译 使 queuetab 数组 可 以 改变 大 小 而 不 需要 修改 .b 文件 。 

queuetab 中 数组 每 个 表 项 的 内 容 都 是 由 结构 qentry 定义 的 。 该 文件 只 包含 一 个 queuetab 数组 中 的 
元 素 声明 。 第 22 章 解释 这 些 数据 结构 在 系统 启动 的 时 候 如 何 初始 化 。 字 段 qnext 提供 了 链表 中 下 一 个 
结 点 的 相对 地 址 ， 字 段 qprev 指向 前 一 个 结 点 ， 字 段 qkey 包含 了 该 结 点 的 一 个 整数 键 值 。 当 一 个 字段 ， 
如 前 驱 或 后 继 指针 ， 没 有 包含 一 个 可 用 的 索引 值 时 ， 这 个 字段 被 赋值 为 EMPTY。 


4.5 内 联 队 列 操作 函数 

函数 isempty 和 nonempty 是 检查 链表 是 否 为 空 的 函数 (布尔 函数 )， 它 将 链表 的 头 结 点 作为 参数 。 
通过 检查 链表 中 的 第 一 个 结 点 是 否 是 一 个 进程 或 者 是 尾 结 点 ，isempty 确定 了 一 个 链表 是 否 为 空 ; non- 
empty 的 作用 与 isempty 相反 。 记 住 ， 一 个 项 只 有 当 它 的 索引 小 于 NPROC 时 才 会 被 处 理 。 

其 他 的 内 联 函数 也 相当 易于 理解 。firstkey lastkey 和 firstid 返回 链表 中 第 一 个 进程 的 键 值 、 最 后 一 
个 进程 的 键 值 ， 或 者 第 一 个 进程 的 queuetab 索引 。 通 常 ， 这 些 函 数 用 在 非 空 链表 上 。 


4.6 获取 链表 中 进程 的 基础 函数 


如 何 从 链表 中 获取 进程 5? 如 前 所 述 ， 从 FIFO 队列 的 头 部 获取 结 点 会 使 存在 时 间 最 长 的 结 点 被 移 
除 。 对 于 一 个 优先 级 队列 而 言 ， 从 头 开始 寻找 将 会 产生 一 个 优先 级 最 高 的 结 点 。 同 样 ， 从 尾部 开始 会 
产生 一 个 优先 级 最 低 的 结 点 。 因 此 ， 我们 可 以 构造 三 个 简单 有 效 的 处 理 函 数 : 

© getfirst: 获取 头 结 点 。 

© getlast; 获取 尾 结 点 。 

e getitem: 获取 任意 指针 位 置 的 进程 。 

这 三 个 函数 的 代码 可 以 在 getitem. c 中 找到 。 


/* getitem.c - getfirst, getlast, getitem */ 


#include <xinu.h> 


/* RAISI VE Pene n SI E E RA ew Ce eS TOS 
* getfirst - Remove a process from the front of a queue 
iconica rca a E VOA 
ky 

pid32 getfirst ( 

qid16 q /* ID of queue from which to WA 
) /* remove a process (assumed */ 
/* valid with no check) */ 


E 


加 ”我们 将 在 后 面 考虑 向 链表 插 和 人 一 个 元 素 。 
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pid32 head; 


if (isempty(q)) { 
return EMPTY; 
} 


head = queuehead(q) ; 
return getitem(queuetab [head] .qnext) ; 


J* n ———MÀ—————————————————— (a 
* getlast - Remove a process from end of queue 
Rommel e EM sup MID Mi QS D m sui E Qt sb 
*/ 

pid32 getlast( 

qidl16 q /* ID of queue from which to */ 
) /* remove a process (assumed */ 
/* valid with no check) *7 
{ 
pid32 tail; 
if (isempty(q)) ( 
return EMPTY; 
} 
tail = queuetail(q); 
return getitem(queuetab[tail].qprev); 

} 

/* i ——— € m eee ee eee ee Se e e SS MI T T Do E rer e rea 
* getitem - Remove a process from an arbitrary point in a queue 
Cudicini 
*j 

pid32 getitem( 

pid32 pid /* ID of process to remove ud 
) 
( 
pid32 prev, next; 
next = queuetab[pid] .qnext; /* following node in list */ 
prev = queuetab[pid].qprev; /* previous node in list #/ 
queuetab[prev].qnext = next; 
queuetab[next].qprev = prev; 
return pid; 
} 


getfirst 接收 一 个 队列 作为 参数 ， 验 证 该 参数 确定 一 个 非 空 链表 ， 找 到 该 链表 的 头 结 点 ， 然 后 调 
用 getitem 从 链表 中 获取 进程 。 同 样 ，getlast 接收 一 个 队列 ID 作为 参数 ， 从 队 尾 开 始 寻 找 ， 重 复 上 述 过 
程 。 这 两 个 函数 都 返回 进程 的 人 D。 

getitem 接收 进程 ID 作为 参数 ， 从 链表 中 找到 这 个 进程 。 获 取 过 程 包括 将 原来 的 前 驱 结 点 与 后 驱 结 
点 相互 连接 ， 当 目标 进程 从 链表 中 完全 删除 时 ，getitem 返回 该 进程 的 ID, 


4.7 FIFO 队列 操作 


我 们 将 看 到 进程 管理 器 的 很 多 链表 是 由 先进 先 出 队列 (FIFO) 组 成 的 。 也 就 是 说 ， 一 个 新 的 结 点 
插入 链表 的 尾部 ， 每 个 结 点 都 是 从 链表 的 头 部 被 移 除 的 。 例 如 ， 调 度 器 可 以 使 用 先进 先 出 队列 来 实现 
循环 调度 ， 将 当前 进程 放 入 链表 的 尾部 ， 并 切换 到 链表 头 的 进程 。 
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文件 queue. C 中 的 函数 enqueue 和 dequeue 实现 的 是 链表 上 的 FIFO 操作 。 因 为 每 个 链表 都 有 头 、 元 
尾 结 点 ， 所 以 插入 和 提取 的 效率 都 很 高 。 例 如 ，enqueue 将 在 尾 结 点 前 面 插入 一 个 项 ， 而 dequeue 则 在 |7 
头 结 点 后 面 移 除 一 个 项 。dequeue 接收 一 个 参数 作为 链表 的 ID enqueue 通过 接收 两 个 参数 ， 分 别 是 进 (57 


f£ ID 和 要 插入 链表 的 链表 ID, 


/* queue.c - enqueue, dequeue */ 


#include <xinu.h> 


struct qentry queuetab [NQENT] ; /* table of process queues */ 
/[* ————————————————————————— 
* enqueue - Insert a process at the tail of a queue 
DIS C —— -————————————————— —————— ———————— RP eit ais 
ey 
pid32 enqueue ( 
pid32 pid, /* ID of process to insert * 
qid16 q /* ID of queue to use */ 
) 
{ 
int tail, prev; /* tail & previous node indexes */ 


if (isbadgid(q) || isbadpid(pid)) { 
return SYSERR; 
} 


tail = queuetail(q); 
prev = queuetab[tail] .qprev; 


queuetab[pid].qnext = tail; /* insert just before tail node */ 
queuetab[pid].qprev = prev; 

queuetab[prev].qnext = pid; 

queuetab[tail].qprev = pid; 

return pid; 


pid32 dequeue ( 
qidi6 q /* ID queue to use 有 


pid32 pid; /* ID of process removed */ 


if (isbadqid(q)) { 
return SYSERR; 

} else if (isempty(q)) { 
return EMPTY; 


pid = getfirst(q); 
queuetab[pid].qprev = 
queuetab[pid].qnext 
return pid; 


È 


} 
函数 enqueue 调用 isbadpid 来 检查 参数 是 否 是 一 个 合法 的 进程 站。 第 5 章 将 说 明 isbadpid H AUK RR 
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数组 成 ， 它 检查 ID 是 否 在 正确 的 值 域内 并 且 对 应 该 TD. 的 进程 是 否 存在 。 
文件 queue. c 包含 xinu. h， 它 包含 了 完整 的 Xin 引用 文件 : 


/* xinu.h - include all system header files */ 


#include <kernel.h> 
#include <conf.h> 
#include <process.h> 
#include <queue.h> 
#include <sched.h> 
#include <semaphore.h> 
#include <memory.h> 
#include <bufpool.h> 
#include <clock.h> 
#include <mark.h> 
#include <ports.h> 
#include «uart.h» 
#include <tty.h> 
#include «device.h» 
#include «interrupt.h» 
#include <file.h> 
#include <rfilesys.h> 
#include <rdisksys.h> 
#include <lfilesys.h> 
#include «ag71xx.h» 
#include <ether.h> 
#include «mips.h» 
#include <nvram.h> 
#include <gpio.h> 
#include <net.h> 
#include <arp.h> 
#include <udp.h> 
#include <dhcp.h> 
#include <icmp.h> 
#include <name.h> 
#include <shell.h> 
#include <date.h> 
#include «prototypes.h» 
将 分 散 的 头 文件 整合 为 一 个 单一 的 头 文件 对 程序 员 来 说 非常 有 用 ， 因 为 这 样 做 确保 所 有 相关 的 定 
义 都 是 可 用 的 ， 并 且 还 能 保证 这 些 分 散 的 头 文件 处 于 一 个 合理 的 顺序 。 在 后 面 的 章节 中 ， 我 们 将 看 到 
这 些 头 文件 的 内 容 。 


4.8 优先 级 队列 的 操作 

进程 管理 器 通常 需要 从 进程 的 集合 中 选择 一 个 优先 级 最 高 的 进程 。 在 我 们 的 示例 系统 中 ， 优 先 级 
是 分 配给 进程 的 一 个 整数 。 通 常 ， 查 找 具 有 最 高 优先 级 进程 的 任务 经 常 与 插入 与 删除 结 点 进行 比较 。 
因此 ， 管 理 进程 列表 的 数据 结构 应 该 这 样 设计 ， 查找 最 高 优先 级 进程 的 操作 应 该 比 插入 和 删除 操作 更 
为 高 效 。 

许多 数据 结 父 被 设计 成 能 够 存储 以 优先 级 方式 访问 的 集合 。 任 何 一 个 这 样 的 数据 结构 都 称 为 优先 
级 队列 。 我 们 的 示例 系统 使 用 线性 链表 来 存储 优先 级 队列 ， 其 中 进程 的 优先 级 就 是 链表 中 的 键 值 。 因 
为 链表 是 按键 值 降 序 排列 的 ， 所 以 最 高 优先 级 的 进程 总 能 在 链表 的 头 中 找到 。 因 此 ， 找 到 最 高 优先 级 
进程 的 开销 为 常数 时 间 。 插 入 是 一 个 开销 更 大 的 操作 ， 因 为 必须 搜索 链表 来 决定 在 哪个 位 置 插入 。 

在 小 型 蔡 入 式 系统 中 ,通常 一 个 队列 中 只 有 2 ~ 3 个 进程 ， 因 此 线性 链表 就 足够 了 。 对 一 个 大 型 系 
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统 而 言 ， 要 么 会 有 大 量 的 元 素 存储 于 优先 级 队列 中 ， 要 么 插入 操作 的 数目 远大 于 元 素 获 取 操 作 ， 此 时 
线性 链表 就 会 显得 效率 很 低 。 后 面 的 例子 将 会 更 深入 地 指出 这 一 点 。 

从 有 序 链 表 中 删除 并 不 难 : 将 第 一 个 结 点 从 链表 中 移 除 。 当 插入 一 个 元 素 时 ， 必 须 保持 链表 的 顺 
序 。 该 函数 需要 三 个 参数 : 要 插入 进程 的 一、 要 插 和 人 队列 的 ID， 以 及 进程 的 整数 优先 级 。 插 入 使 用 
queuetab 中 的 qkey 字段 来 存放 进程 的 优先 级 。 为 了 在 链表 中 找到 正确 的 位 置 ， 插 人 操作 搜索 比 待 插 人 
元 素 的 键 值 小 的 元 素 。 在 搜索 时 ， 整 数 curr 遍历 整个 链表 。 循环 最 终 必定 终止 ， 因 为 尾 结 点 的 键 值 比 
最 小 的 有 效 键 值 小 。 一 旦 找到 正确 的 位 置 ， 插 入 操作 通过 改变 必要 的 指针 来 加 入 新 结 点 。 


/* insert.c - insert */ 


#include <xinu.h> 


/ rs a i ed te i ad GS ———————————— ——————————— RO! 
* insert - Insert a process into a queue in descending key order 
tenete A RA i eee 
kj 

status insert( 

pid32 pid, /* ID of process to insert af 
qidl6 q, /* ID of queue to use xy 
int32 key /* key for the inserted process */ 
) 
{ 
int16 curr; /* runs through items in a queue*/ 
int16 prev; /* holds previous node index = 
if (isbadqid(q) || isbadpid(pid)) { 
return SYSERR; 
} 
curr = firstid(q); 
while (queuetab[curr].qkey >= key) ( 
curr = queuetab[curr] .qnext; 
} 
/* insert process between curr node and previous node */ 
prev = queuetab[curr].qprev; /* get index of previous node #/ 
queuetab[pid].qnext = curr; 
queuetab[pid].qprev = prev; 
queuetab[pid].qkey = key; 
queuetab[prev].qnext = pid; 
queuetab[curr].qprev - pid; 
return OK; 
} 


4.9 链表 初始 化 


上 述 过 程 都 假设 ， 链 表 即 使 为 空 ， 也 要 初始 化 。 现 在 考虑 创建 一 个 空 链表 的 代码 。 之 所 以 在 本 章 
末尾 考虑 创建 空 链表 的 代码 ， 是 因为 这 体现 了 设计 过 程 中 的 一 个 要 点 : 

初始 化 是 设计 中 的 最 后 一 步 。 

这 可 能 看 起 来 很 奇怪 ， 因 为 设计 者 不 可 能 延 后 初始 化 这 个 步骤 。 然 而 ， 一 般 的 设计 范式 是 这 样 的 : 
第 一 ,设计 系统 需要 的 数据 结构 ; 第 二 ， 规 划 如 何 初始 化 这 个 数据 结构 。 将 “准备 状态 ”与 “瞬间 状 
态 ” 区 分 开 来 ， 有 助 于 我 们 关注 设计 者 最 重要 的 意图 ， 避 免 因 为 简单 的 初始 化 过 程 而 牺牲 优秀 的 设计 。 

queuetab 数据 结 爸 中 表 项 的 初始 化 是 按 需 进行 的 。 运 行 中 的 进程 调用 函数 newqueue 来 创建 一 个 新 
的 链表 。 系 统 维护 一 个 全 局 指针 指向 下 一 个 没有 分 配 的 queuetab 元 素 。 

理论 上 ,链表 中 的 尖 、 尾 结 点 可 以 被 任何 没有 使 用 过 的 queuetab 的 表 项 初始 化 。 实 际 上 ， 找 到 任 
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意 一 个 位 置 需要 调用 者 存储 两 个 项 : 链表 的 头 、 尾 索引 。 为 了 优化 存储 ， 我 们 定义 以 下 规则 : 
链表 不 的 头 、 尾 结 点 是 由 queuetab 数组 中 的 连续 位 置 分 配 的 ， 链表 针 的 唯一 标识 符 是 头 

结 点 的 索引 。 

在 代码 中 ，newqueue 给 queuetab 数组 中 分 配 了 一 对 相 邻 的 位 置 ， 并 且 通 过 将 头 结 点 的 后 继 结 点 设 
为 尾 结 点 ， 尾 结 点 的 前 驱 结 点 设 为 头 结 点 的 方式 将 链表 初始 化 。newqueue 将 EMPTY 赋 给 一 个 没有 使 
用 过 的 指针 〈 即 ， 尾 结 点 的 后 继 结 点 和 头 结 点 的 前 驱 结 点 ) 。 当 初始 化 一 个 链表 时 ，newqueue 也 设置 
头 结 点 和 尾 结 点 的 键 值 字段 ， 分 别 赋予 最 大 整数 值 与 最 小 整数 值 ， 这 两 个 数值 都 不 会 作为 键 值 使 用 。 
只 需要 一 个 分 配 函 数 ， 因 为 可 以 用 链表 来 实现 FIFO 队列 或 优先 级 队列 。 

一 旦 结束 初始 化 ，newqueue 给 调用 者 返回 链表 头 结 点 的 索引 。 调 用 者 只 需要 存储 一 个 值 ， 因 为 尾 
结 点 ID 可 以 通过 将 头 结 点 的 键 值 +1 计算 出 来 。 


/* newqueue.c - newqueue */ 


#include «xinu.h» 


qid16 newqueue (void) 


static qidl6 nextqid-NPROC;/* next list in queuetab to use xy 
gidi6 a: /* ID of allocated queue D 


q = nextqid; 

if (q > NQENT) { /* check for table overflow ky 
return SYSERR; 

} 

nextqid += 2; /* increment index for next call*/ 


/* initialize head and tail nodes to form an empty queue */ 


queuetab[queuehead(q)].qnext = queuetail (q); 
queuetab[queuehead(q)].qprev = EMPTY; 


queuetab[queuehead(q)].qkey = MAXKEY; 
queuetab[queuetail(q)].qnext = EMPTY; 
queuetab[queuetail(q)].qprev = queuehead(q); 
queuetab[queuetail(q)].qkey = MINKEY; 


return q; 
} 


4.10 观点 


使 用 简单 的 数据 结构 来 处 理 链表 后 ， 就 能 够 使 用 通用 的 链表 维护 函数 。 这 样 做 可 以 减少 代码 宛 余 。 
使 用 隐 式 数据 结构 来 减少 内 存 的 使 用 。 对 小 型 的 嵌入 式 系 统 而 言 ， 简 洁 的 代码 和 数据 是 非常 必要 的 。 
对 于 有 着 充足 空间 的 系统 而 言 呢 ? 不 恰当 的 设计 会 导致 一 个 软件 占用 所 有 它 可 以 占用 的 空间 ， 从 而 导 
致 内 存 不 足 。 因 此 在 设计 的 时 候 ， 考 虑 周全 是 非常 必要 的 。 


4.11 总 结 


本 章 描述 了 进程 管理 中 的 链表 函数 。 在 我 们 的 示例 系统 中 ， 进 程 链表 是 一 个 单独 的 、 统 一 的 数据 
结构 一 一 queuetab 数组 。 操 作 这 些 进 程 链表 的 函数 可 以 创建 FIFO 队列 或 者 优先 级 队列 。 所 有 的 链表 都 
有 统一 的 格式 : 它们 是 双向 的 ， 每 个 链表 都 有 一 个 头 和 一 个 尾 ， 每 个 结 点 都 有 一 个 整数 键 值 。 当 链表 
是 优先 级 队列 时 ， 键 值 就 会 被 使 用 。 而 当 链 表 是 FIFO 队列 时 ， 则 键 值 会 被 忽略 。 
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为 了 减少 所 需要 的 空间 ，Xinu 使 用 相对 指针 和 一 个 隐 式 数据 结构 。 链 表 中 的 一 个 结 点 要 么 表示 一 
个 进程 ， 要 么 表示 链表 头 或 尾 。 


练习 
4.1 队列 数据 结构 是 怎么 隐 式 定义 的 ? 
4.2 如果 优 先 级 的 值 从 -8 ~8， 为 了 在 queuetab 中 存储 每 个 键 值 ， 需 要 多 少 位 ? 
4.3 创建 一 个 单独 的 一 组 函数 ， 人 允许 创建 单 链表 ， 然 后 将 元 素 插入 FIFO 或 者 优先 级 队列 中 。 这 样 做 比 一 
般 的 做 法 增加 多 少 内 存 。 这 样 做 是 否 可 以 降低 CPU 的 使 用 。 请 解释 。 
insert 对 所 有 的 键 值 都 正常 工作 吗 ? 如 果 不 是 ， 是 哪些 键 值 导致 了 失败 的 情况 ? 
使 用 指针 而 不 使 用 数组 索引 来 维护 链表 ， 请 问 内 存 开销 和 CPU 处 理 时 间 有 何 变 化 ? 
比较 使 用 指针 和 数组 索引 的 两 种 情况 下 isempty 实现 的 复杂 度 。 
大 型 系统 有 时 使 用 堆 来 实现 优先 级 队列 。 什 么 是 堆 ? 当 长 度 为 1 ~3 的 时 候 ， 它 与 双向 有 序 链 表 相 上 比 ， 
谁 的 代价 更 大 ? 
.8 函数 getfirst getlast, getitem 并 不 检查 它们 的 参数 是 否 是 一 个 合法 的 ID。 修改 这 些 代 码 ， 加 入 校 验 。 
4.9 将 下 标 转换 为 内 存 地 址 的 操作 可 能 使 用 乘法 实现 。 填 充 qentry 为 2 字 节 的 备 ， 然 后 检查 编译 后 的 代码 
是 否 使 用 位 移 操作 而 不 是 乘法 。 
根据 之 前 的 练习 ， 检 查 填 充 的 和 未 填充 数据 结构 在 增加 、 删 除 时 的 区 别 。 
在 严格 字 对 齐 的 架构 (比如 ，MIPS) 上 ， 如 果 一 个 结构 中 包含 了 不 是 4 字 节 整数 倍 的 数据 ， 编 译 器 
就 会 产生 带 有 掩 码 和 位 移 的 代码 。 请 尝试 改变 qenuy 的 字段 ， 使 数据 能 够 按 机 器 字 对 齐 ， 同 时 讨论 
对 队列 表 的 大 小 以 及 获取 元 素 的 代码 所 带 来 的 影响 。 
4.12 ”修改 newqueue， 检 查 由 于 试图 分 配 多 于 NQENT 个 元 素 而 引起 的 错误 。 
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调度 和 上 下 文 切 换 


具有 强大 的 执行 力 ， 能 够 将 梦想 变 为 现实 的 工作 ， 才 能 够 称 为 真正 的 工作 。 





Max Jacob 





5.1 引言 

操作 系统 通过 在 计算 时 频繁 切换 处 理 器 给 人 以 并 行 执行 的 幻觉 。 由 于 运算 速度 远 快 于 人 的 反应 ， 
其 带 来 的 影响 就 是 一 一 多 个 任务 看 上 去 就 像 同时 处 理 一 样 。 

上 下 文 切换 ， 就 是 停止 当前 进程 ， 保 存 足 够 的 信息 以 便 可 以 在 稍 后 将 该 进程 重启 ， 然 后 启动 另 一 
个 进程 。 这 一 过 程 困难 的 地 方 在 于 上 下 文 切换 的 时 候 ，CPU 不 会 停止 一 一 我 们 需要 连续 地 让 CPU 从 当 
前 代码 转移 到 新 的 进程 上 。 

本 章 介绍 上 下 文 切 换 的 基本 机 制 ， 说 明 操作 系统 如 何 保存 当前 进程 的 信息 ， 选 择 下 一 个 需要 运行 
的 进程 ， 然 后 把 控制 权 交 给 下 一 个 进程 。 本 章 介绍 的 内 容 包括 如 何 记录 没有 正在 运行 进程 的 数据 结构 ， 
和 上 下 文 切换 是 怎么 使 用 这 些 结构 的 。 目 前 ,我 们 暂时 忽略 何 时 以 及 为 何 要 使 用 上 下 文 切 换 来 改变 进 
程 的 问题 。 这 些 问 题 将 在 后 续 章节 解答 。 


5.2 进程 表 

操作 系统 将 所 有 与 进程 相关 的 信息 记录 在 进程 表 中 。 进 程 表 为 当前 所 有 存在 的 进程 保存 一 个 进程 
表 项 。 当 一 个 进程 被 创建 的 时 候 ， 我 们 需要 在 进程 表 中 分 配 一 个 进程 表 项 ， 当 一 个 进程 结束 的 时 候 删 
除 该 进程 表 项 。 由 于 在 任 一 时 刻 有 且 只 有 一 个 进程 在 执行 ， 所 以 进程 表 中 也 只 有 一 个 进程 表 项 对 应 了 
活动 进程 一 一 进程 表 中 保存 的 状态 信息 对 于 正在 执行 的 进程 来 说 是 过 时 的 。 进 程 表 中 其 他 的 每 一 项 包 
含 了 暂时 停止 执行 的 进程 的 相关 信息 。 为 了 改变 上 下 文 ， 操 作 系 统 将 当前 正在 运行 的 进程 的 信息 保存 
在 进程 表 中 ， 然 后 从 进程 表 中 恢复 将 要 执行 的 进程 。 

哪些 信息 需要 保存 在 进程 表 中 ? 在 新 进程 运行 时 ， 系 统 必须 保存 那些 可 能 被 破坏 的 值 。 比 如 ， 栈 。 
因为 每 个 进程 有 自己 单独 的 栈 空 间 ， 所 以 整个 栈 不 需要 保存 ， 然 而 ， 在 进程 运行 的 时 候 ， 它 会 改变 硬件 
栈 的 指针 寄存 器 。 因 此 ， 栈 指针 的 内 容 必 须 在 进程 被 暂停 的 时 候 保存 ， 必 须 在 进程 重新 执行 时 恢复 。 类 
似 地 ， 通 用 寄存 器 的 值 也 要 保存 和 恢复 。 除 了 硬件 信息 外 ， 操 作 系统 也 在 进程 表 中 保存 元 信息 。 我 们 将 
会 看 到 操作 系统 如 何 使 用 这 些 元 信息 实现 进程 计数 、 错 误 避 免 和 其 他 管理 任务 。 例 如 ， 多 用 户 系统 的 进 
程 表 将 记录 每 个 进程 ID 属于 哪个 用 户 。 类 似 地 ， 如 果 操 作 系 统 限制 进程 可 以 调用 的 内 存 空间 ， 这 个 限制 
也 会 保存 在 进程 表 中 。 我 们 将 在 后 续 的 章节 中 讲述 操作 进程 的 系统 函数 时 详细 阐述 进程 表 的 细节 。 

在 我 们 的 示例 操作 系统 中 ， 进 程 表 proctab 由 一 个 NPROC 个 元 素 的 数组 组 成 。proctab 中 的 每 个 元 
素 记 录 了 一 个 进程 所 需要 的 信息 。 图 5-1 列 出 了 进程 表 的 主要 元 素 。 














字段 | 目的 
prstate 进程 的 当前 状态 ( 比如 ， 进 程 当前 正在 执行 还 是 正在 等 待 ) 
prprio 进程 的 调度 优先 级 
prstkptr 当 进程 不 运行 时 的 栈 指针 的 值 








prstkbase 内 存 中 进程 栈 的 最 高 地 址 
prstklen 进程 栈 的 最 大 值 -| 
为 了 能 够 让 人 识别 进程 所 分 配 的 进程 名 字 




















图 5-1 Xinu 进程 表 的 主要 元 素 
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在 整个 操作 系统 中 ， 每 个 进程 由 一 个 整数 ID 唯一 标识 。 以 下 规则 给 出 了 进程 ID 和 进程 表 之 间 的 

关系 。 
进程 能 够 通过 其 进程 ID 来 引用 ， 在 进程 表 中 ， 保 存 了 进程 状态 信息 的 表 项 的 索引 就 是 进 

程 的 ID。 

作为 一 个 例子 ， 考 虑 代码 如 何 找到 一 个 进程 的 信息 。 关 于 了 D 为 3 的 进程 信息 可 以 在 proctab[3] 中 
RA, E, ID 为 5 的 进程 信息 可 以 在 proctab[5] 中 找到 。 使 用 数值 索引 作为 ID 使 得 查找 信息 变 得 
非常 高 效 。 

proctab 中 的 每 个 表 项 都 定义 为 procent 结构 。 结 构 procent 和 其 他 与 进程 上 有关 的 声明 在 process. h H o 
进程 表 中 的 某 些 字段 包含 了 操作 系统 管理 进程 所 需要 的 信息 〈 比如， 进程 结束 时 需要 释放 的 进程 的 栈 
内 存 的 信息 )。 其 他 字段 只 是 用 于 调试 。 比 如 ，pmame 字段 包括 了 进程 名 称 字符 串 ， 这 个 字段 只 有 在 
调试 的 时 候 才 会 用 到 。 


/* process.h - isbadpid */ 

/* Maximum number of processes in the system */ 
#ifndef NPROC 

#define NPROC 8 


#endif 


/* Process state constants */ 


#define PR_FREE 0 /* process table entry is unused £ 
#define PR_CURR 1 /* process is currently running wy 
#define PR_READY 2 /* process is on ready queue */ 
#define PR RECV 3 /* process waiting for message uA 
#define PR SLEEP 4 /* process is sleeping */ 
#define PR SUSP 5 /* process is suspended i'd 
#define PR_WAIT 6 /* process is on semaphore queue sf 
#define PR_RECTIM 7 /* process is receiving with timeout xy 


/* Miscellaneous process definitions */ 


#define PNMLEN 16 /* length of process "name" ad 
#define NULLPROC 0 /* ID of the null process x 


/* Process initialization constants */ 


#define INITSTK 65536 /* initial process stack size *7 
#define INITPRIO 20 /* initial process priority xf 
#define INITRET userret /* address to which process returns */ 


/* Reschedule constants for ready */ 


#define RESCHED YES È /* call to ready should reschedule Ey 
#define RESCHED_NO 0 /* call to ready should not reschedule */ 
/* Inline code to check process ID (assumes interrupts are disabled) *7 
#define isbadpid(x) ( ((pid32) (x) < 0) || ^ 

((pid32)(x) >= NPROC) || \ 


(proctab[(x)].prstate == PR FREE)) 
/* Number of device descriptors a process can have open */ 


#define NDESC 5 /* must be odd to make procent 4N bytes */ 
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/* Definition of the process table (multiple of 32 bits) */ 


struct procent { /* entry in the process table x 
uint16 prstate; /* process state: PR_CURR, etc. */ 
pri16 prprio; /* process priority *J 
char *prstkptr; /* saved stack pointer */ 
char *prstkbase; /* base of run time stack E 
uint32 prstklen; /* stack length in bytes */ 
char prname [PNMLEN] ; /* process name */ 
uint32 prsem; /* semaphore on which process waits ey 
pid32 prparent; /* id of the creating process wy 
umsg32 prmsg; /* message sent to this process ey: 
booi8 prhasmsg; /* nonzero iff msg is valid i 
int16 prdesc[NDESC];  /* device descriptors for process ey 


he 


/* Marker for the top of a process stack (used to help detect overflow) */ 
#define STACKMAGIC Ox0A0AAAA9 


extern struct procent proctab[]; 
extern int32 prcount; /* currently active processes ey 
extern pid32 currpid; /* currently executing process tj 


5.3 进程 状态 

为 了 准确 记录 进程 正在 做 什么 并 检验 进程 操作 的 有 效 性 ， 系 统 给 每 个 进程 赋予 一 个 状态 。 在 设计 
过 程 中 ， 操 作 系统 设计 者 定义 所 有 可 能 的 状态 。 因 为 很 多 对 进程 进行 操作 的 系统 函数 需要 使 用 这 些 状 
态 去 判定 操作 是 否 有 效 ， 进 程 状态 必须 在 系统 实现 前 完整 定义 。 

Xinu 使 用 进程 表 中 的 prstate 字段 记录 每 个 进程 的 状态 信息 。 系 统 定义 了 7 个 有 效 状 态 ， 每 个 状态 
都 有 自己 的 符号 常量 。 系 统 同时 定义 了 一 个 额外 
的 常量 用 于 标识 未 被 使 用 的 进程 表 项 〈 即 没有 
进程 会 使 用 该 进程 表 项 ) 。 文 件 process. h 包含 有 
相关 的 定义 。 图 5-2 列 出 了 所 有 的 状态 符号 以 及 
每 个 符号 的 意义 。 

因为 Xinu 是 作为 一 个 租 入 式 系 统 而 设计 和 
运行 的 ， 所 以 Xinu 总 是 将 所 有 进程 的 代码 和 数 
据 都 保存 在 内 存 中 。 在 大 型 操作 系统 中 ， 系 统 可 
以 将 不 运行 的 进程 放 和 人 二 级 存储 介质 中 。 因 此 ， 
在 那些 系统 中 ， 进 程 状 态 需 要 表述 该 进程 是 在 内 
存 中 还 是 在 磁盘 上 。 5-2 ”表示 进程 状态 的 7 个 符号 


5.4 就 绪 和 当前 状态 

后 面 章 节 将 具体 介绍 每 个 进程 状态 ， 并 且说 明 如 何以 及 为 什么 系统 函数 要 改变 进程 的 状态 。 而 本 
章 下 面 几 节 关注 就 绪 和 当前 进程 状态 。 

几乎 每 个 操作 系统 都 包含 就 绪 和 当前 进程 状态 。 一 个 进程 处 于 就 绪 状 态 ， 如 果 该 进程 已 经 为 CPU 
服务 做 好 了 准备 〈 即 有 资格 ) 但 目前 还 没有 被 执行 。 而 一 个 正在 接收 CPU 服务 的 进程 称 为 当前 进程 。 


5.5 调度 策略 


从 当前 执行 的 进程 转换 到 另外 一 个 进程 ， 需 要 两 个 步骤 : 从 有 资格 使 用 CPU 的 进程 中 挑选 一 个 ， 
然后 将 CPU 的 控制 权 交 给 该 进程 。 执 行 选择 进程 策略 的 软件 称 为 调度 器 。 在 Xinu, PA resched 使 用 
下 面 的 著名 调度 策略 选择 进程 : 









进程 表 中 的 表 项 未 被 使 用 ( 非 实际 的 进程 状态 ) 
进程 当前 正在 执行 

















PR_READY 
PR_RECV 
PR_SLEEP 








进程 正在 等 待 消息 
进程 正在 等 待 计时 器 
PR_SUSP | 进程 处 于 挂 起 状态 
[PR_WAIT | 进程 正在 等 待 信号 量 
PR_RECTIM | 进程 正在 等 待 计时 器 或 消息 ， 无 论 哪 个 先 发 生 
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在 任何 时 候 ， 执 行 有 资格 获得 CPU 服务 的 优先 级 最 高 的 进程 。 在 优先 级 相同 的 情况 下 ， 

采用 时 间 轮 转调 度 (round-robin) 策略 。 

调度 需要 注意 两 个 方面 : 

e 当前 执行 的 进程 包括 在 有 资格 进程 的 集合 中 。 因 此 ， 如 果 进 程 P 正 在 执行 ， 并 且 它 的 优先 级 比 
其 他 任何 进程 的 优先 级 高 ， 则 进程 p 将 继续 执行 。 

© 术语 轮转 调度 是 指 这 样 的 情景 ， 一 组 包含 相同 优先 级 的 个 进程 ,这 些 进程 的 优先 级 比 其 他 进 
程 高 。 轮 转调 度 策略 让 这 组 进程 中 每 个 成 员 能 够 依次 获得 服务 ， 所 以 每 个 成 员 都 会 在 其 他 成 员 
获得 第 二 轮 执行 之 前 执行 。 


5.6 调度 的 实现 

理解 调度 器 的 关键 在 于 明白 调度 器 仅仅 是 一 个 函数 。 也 就 是 说 ， 操 作 系 统 的 调度 器 不 是 一 个 从 进 
程 拿 出 CPU 将 其 转移 到 另 一 个 进程 的 主动 代理 。 相 反 ， 某 个 执行 中 的 进程 调用 调度 器 函数 = 。 

调度 器 是 由 执行 进程 放弃 CPU Br Pp3 #9 BAZAR: 

进程 的 优先 级 由 一 个 正 整 数组 成 ， 并 且 给 定 进程 的 优先 级 存储 在 进程 表 项 的 prprio 字段 。 用 户 给 
每 个 进程 分 配 一 个 优先 级 来 控制 进程 如 何 选 择 接 收 CPU 服务 。 市 场 上 还 有 许多 复杂 的 调度 策略 ， 如 观 
察 每 个 进程 的 行为 ， 动 态 地 调整 优先 级 的 调度 器 。 但 是 ， 对 于 大 多 数 租 入 式 系统 来 说 ， 进 程 的 优先 级 
相对 保持 静态 (典型 情况 下 ， 进 程 的 优先 级 在 进程 创建 后 就 不 再 改变 ) 。 

为 了 快速 地 选择 新 进程 ， 我 们 的 示例 系统 将 所 有 就 绪 状 态 的 进程 存储 在 一 个 链表 中 ， 称 为 就 绪 链 
表 。 在 就 绪 链表 中 的 进程 按 进程 优先 级 降序 排列 。 因 此 ， 最 高 优先 级 进程 在 链表 头 的 位 置 可 以 快速 地 
被 访问 。 

在 我 们 的 示例 代码 中 ， 就 绪 链 表 存 储 在 第 4 章 描 述 的 queuetab 数组 中 ， 调 度 器 使 用 第 4 章 中 的 函 
数 对 链表 进行 更 新 和 访问 。 也 就 是 说 ， 就 绪 链 表 中 每 个 元 素 的 键 值 由 该 元 素 对 应 进程 的 优先 级 组 成 。 
全 局 变量 readylist 包含 对 应 就 绪 链表 的 队列 ID。 

是 否 应 该 将 当前 进程 保持 在 就 绪 链表 中 ? 答案 依赖 于 具体 的 实现 。 整 个 系统 一 致 遵循 的 每 种 解决 
方案 都 是 可 行 的 。Xinu 实现 如 下 的 调度 策略 : 

当前 进程 不 出 现在 就 绪 链 表 中 。 为 了 能 够 快速 访问 当前 进程 ， 当 前 进程 的 ID 存储 在 一 个 

全 局 整数 变量 currpid 中 。 

考虑 CPU 从 一 个 进程 切换 到 另 一 个 进程 的 情况 。 当 前 正在 执行 的 进程 放弃 CPU。 通常， 刚才 正在 
执行 的 进程 能 够 继续 使 用 CPU。 在 这 种 情况 下 ， 调 度 器 必须 把 当前 进程 的 状态 改 成 PR. READY 并 将 该 
进程 插入 到 就 绪 链表 中 ， 确 保 它 在 稍 后 能 再 一 次 获得 CPU 服务 。 但 是 ， 如 果 当 前 进程 不 再 准备 继续 执 
行 ， 则 该 进程 不 能 放 在 就 绪 链表 中 。 

那么 调度 器 如 何 决定 是 否 将 当前 进程 移 到 就 绪 链表 呢 ? 在 Xinu 中 ,调度 器 不 是 显 式 地 接收 参数 来 
决定 如 何 处 理 当 前 进程 。 相 反 ， 该 函数 使 用 一 个 隐 式 参数 : 如 果 当 前 进程 不 再 保持 就 绪 状 态 ， 那 么 在 
调用 resched 函数 之 前 ， 当 前 进程 的 prstate 字段 必须 设置 成 所 需 的 下 一 个 状态 。 无 论 何 时 准备 切换 到 新 
进程 ，resched 检查 当前 进程 的 prstate 字段 。 如 果 进 程 的 状态 依旧 是 PR_CURR, Ji] resched 认为 进程 应 
该 继续 准备 执行 ， 将 进程 移 到 就 绪 链 表 中 。 和 否则 ，resched 认为 进程 的 下 一 个 状态 已 经 选 定 。 第 6 章 将 
给 出 一 个 具体 例子 。 

除了 将 当前 进程 移 到 就 绪 链表 中 外 ，resched 完成 调度 的 所 有 细节 和 上 下 文 切换 ， 除 了 保存 和 恢复 
机 器 寄存 器 之 外 (这 不 能 直接 通过 像 C 语言 这 样 的 高 级 语言 实现 ) resched 选择 一 个 新 的 进程 运行 ， 
在 进程 表 中 更 新 该 进程 的 表 项 ， 将 新 进程 从 就 绪 链 表 中 移 除 ， 使 其 成 为 当前 进程 ， 并 且 更 新 currpid。 
同时 也 更 新 抢占 计数 器 ， 这 些 我 们 将 在 稍 后 讨论 。 最 后 ，resched 调用 ctxsw 保存 当前 进程 的 硬件 寄存 
器 ， 从 新 进程 中 恢复 硬件 寄存 器 。 这 部 分 的 源 代 码 可 以 从 resched. c 文件 中 找到 : 





O ”后续 章 节 会 解释 一 个 进程 如 何以 及 为 什么 会 调用 调度 器 。 
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/* resched.c - resched */ 


#include <xinu.h> 


/* €—————————————————————————————ÁÓIÁ D S i i i i td 
* resched - Reschedule processor to highest priority eligible process 
| ——————————————————————————————————————— 
Ey 

void resched (void) /* assumes interrupts are disabled wy 

{ 

struct procent *ptold; /* ptr to table entry for old process %/ 
struct procent *ptnew; /* ptr to table entry for new process */ 
/* If rescheduling is deferred, record attempt and return */ 
if (Defer.ndefers » 0) ( 
Defer.attempt - TRUE; 
return; 
} 
/* Point to process table entry for the current (old) process */ 
ptold = &proctab[currpid]; 
if (ptold->prstate == PR_CURR) { /* process remains running */ 
if (ptold->prprio > firstkey(readylist)) { 
return; 
} 
/* Old process will no longer remain current */ 
ptold->prstate = PR READY; 
insert(currpid, readylist, ptold-»prprio); 
} 
/* Force context switch to highest priority ready process */ 
currpid = dequeue (readylist) ; 
ptnew = &proctab[currpid]; 
ptnew->prstate = PR_CURR; 
preempt = QUANTUM; /* reset time slice for process */ 
ctxsw(&ptold->prstkptr, &ptnew-»prstkptr); 
/* Old process returns here when resumed */ 
return; 
} 


resched 开始 工作 时 检查 全 局 变量 Defer. ndefers， 决 定 是 否 需 要 推迟 重新 调度 。 如 果 需 要 推迟 重新 
调度 ，resched 通过 设置 全 局 变量 Defer. attempt 来 表明 在 推迟 的 时 间 段 里 尝试 过 调度 ， 并 且 返 回 到 
resched 的 调用 者 。 提 供 推迟 重新 调度 是 为 了 调节 设备 驱动 适应 那些 在 一 个 中 断 上 需要 驱动 服务 多 个 设 
备 的 硬件 。 到 目前 为 止 ， 只 要 理解 调度 可 以 被 暂时 推迟 即 可 。 

一 旦 通过 推迟 条 件 测 试 ，resched 就 检查 一 个 隐 式 参数 : 当前 进程 的 状态 。 如 果 进 程 状态 变量 包含 
PR_CURR 并 且 当 前 进程 的 优先 级 在 系统 中 是 最 高 的 ， 则 resched 返回 ， 当 前 进程 继续 运行 。 如 果 进 程 
状态 表明 当前 进程 应 该 继续 使 用 CPU， 但 是 当前 进程 不 具有 最 高 优先 级 ， 则 resched 将 当前 进程 放 人 就 
绪 链 表 。 然 后 ，resched 取出 就 绪 链表 首部 的 进程 (最 高 优先 级 的 进程 ) 执行 上 下 文 切 换 。 

因为 每 个 并 发 进程 都 有 自己 的 指令 指针 ， 想象 上 下 文 切换 如 何 发 生 可 能 是 非常 困难 的 。 为 了 
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说 明 并 发 性 是 如 何 操作 的 ， 设 想 进 程 已 正在 运行 并 且 调用 resched。 如 果 resched 选择 切换 到 进程 
P,， 则 进程 P, 将 在 调用 ctxsw 处 停止 。 但 是 ， 进 程 P, 能 够 运行 ,并且 可 以 执行 任意 的 代码 。 稍 
后 ， 当 resched 切换 回 P, 时 ， 执 行 点 将 在 离开 处 调用 ctxsw 处 恢复 。P, 的 执行 位 置 不 会 改变 ， 
因为 使 用 CPU 的 是 P,。 当 进程 P, 运行 ， 对 ctxsw 的 调用 将 返回 到 resched。 后 面 章 节 将 进一步 考 
虑 相关 的 细节 。 


5.7 上 下 文 切 换 的 实现 

因为 寄存 器 和 硬件 状态 不 能 直接 通过 高 级 语言 来 进行 操作 ， 所 以 resched 调用 一 个 用 汇编 语言 编写 
的 函数 ctxsw 来 执行 从 一 个 进程 到 男 一 个 进程 的 上 下 文 切换 。 当 然 ，ctxsw 的 代码 依赖 于 具体 的 机 器 。 
最 后 一 步 包括 重新 设置 程序 计数 器 ( 即 ， 跳 转 到 新 进程 的 位 置 )。 在 Xinu 中 ,程序 的 所 有 部 分 都 保留 
在 内 存 中 ， 因 此 新 进程 的 文本 段 也 在 内 存 中 。 关 键 之 处 在 于 操作 系统 必须 在 跳 转 进入 新 进程 之 前 加 载 
新 进程 的 所 有 状态 变量 。 一 些 体系 结构 包含 用 于 上 下 文 切换 的 两 条 原子 指令 : 一 条 将 处 理 器 状态 信息 
存储 在 连续 的 内 存单 元 中 ， 另 外 一 条 将 处 理 器 状态 信息 从 连续 的 内 存单 元 中 加 载 。 在 这 种 体系 结构 中 ， 
上 下 文 切换 代码 执行 一 条 指令 将 处 理 器 状态 保存 在 当前 进程 栈 中 ， 用 另 一 条 指令 加 载 新 进程 的 处 理 器 
状态 。 当 然 每 条 指令 都 花费 多 条 指令 周期 。RISC 体系 结构 用 较 长 的 指令 序列 来 实现 cksw， 但 是 每 条 
指令 都 能 快速 执行 。 


5.8 内存 中 保存 的 状态 


为 了 理解 ctxsw 如 何 保存 处 理 器 状态 ， 设 想 系统 中 的 内 存 有 三 个 活动 进程 : 其 中 两 个 是 就 绪 状 态 ， 
一 个 正在 运行 。 每 个 进程 都 拥有 一 个 栈 ， 当 前 正在 执行 的 进程 使 用 它 自 己 的 栈 。 当 执行 进程 调用 一 个 
函数 时 ， 它 必须 在 栈 上 分 配 空间 来 存储 参数 和 局 部 变量 。 当 它 从 函数 返回 时 ， 这 些 变量 将 从 栈 上 释放 。 
如 果 上 下 文 切 换 函 数 在 进程 栈 上 为 进程 保存 机 器 状态 ， 那 么 我 们 将 会 找到 它们 何 时 正在 执行 ， 另 外 两 
个 进程 由 于 在 它们 最 后 运行 时 执行 了 上 下 文 切 换 ， 所 以 它们 将 变量 压 人 它们 的 栈 中 。 图 5-3 说 明了 这 





ea 


为 进程 2 保存 的 状态 一 > 就 绪 进程 2 的 栈 空 间 






wm 一 -| 


为 进程 1 保存 的 状态 > L | 就 绪 进 程 1 的 栈 空间 


[, kin 7 
未 使 用 的 





使 用 的 > 
栈 指针 (sp) 指向 这 里 —> 


当前 进程 的 栈 空 间 
图 5-3 a) 内 存 中 栈 的 解释 ，b) 处 于 就 绪 链表 中 的 进程 ，c) 正在 执行 的 进程 


5.9 在 MIPS 处 理 器 上 切换 上 下 文 
在 RISC 体系 结构 上 ， 例 如 MIPS， 每 条 指令 只 能 读 写 一 个 寄存 器 。 因 此 ， 保 存 N 个 寄存 器 需要 执 
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行 久 条 指令 。 像 大 多 数 操作 系统 一 样 ，Xinu 遵循 把 状态 保存 在 进程 栈 中 的 惯例 。 因 此 ， 我 们 的 MIPS 
版 本 的 ctxsw 执行 4 个 基本 步骤 : 

e. 当 调 用 etxsw 时 ， 执 行 一 系列 顺序 指令 将 处 理 器 寄存 器 的 内 容 保存 在 进程 的 栈 中 。 

。 将 当前 进程 栈 指针 保存 到 进程 表 项 中 ， 加 载 “新 ”进程 的 栈 指针 。 

。 执行 一 系列 顺序 指令 将 以 前 保存 在 新 进程 栈 中 的 值 重 新 加 载 到 处 理 器 寄存 器 。 

。 跳 转 到 新 进程 恢复 执行 点 之 处 继续 执行 。 

因为 上 下 文 切换 涉及 对 处 理 器 寄存 器 的 直接 操作 ， 所 以 代码 都 用 汇编 语言 编写 。 为 了 保存 处 理 器 
寄存 器 的 内 容 ctxsw 在 栈 上 分 配 CONTEXT 字 节 空间 。 该 空间 足够 容纳 所 有 保存 的 寄存 器 值 。 然 后 
ctxsw 在 分 配 的 空间 上 接 字 顺 序 保存 寄存 器 值 。 

第 二 步 ， 直 接 保 存 和 恢复 栈 指针 ， 只 需要 两 条 指令 。ctxsw 接收 两 个 指针 作为 参数 : 当前 进程 栈 指 
针 在 进程 表 中 保存 的 单元 地 址 和 进程 表 中 包含 新 的 栈 指针 的 地 址 。 因 此 ， 一 条 指令 保存 栈 指针 到 第 一 
个 参数 给 定 的 位 置 ， 另 一 条 指令 从 第 二 个 参数 给 定 的 地 址 加 载 栈 指针 。 

第 二 步 结束 后 ， 栈 指针 指向 新 进程 的 栈 。ctxsw 将 保存 在 进程 栈 上 的 值 取 出 ， 载 人 处 理 器 寄存 器 
中 。 一旦 这 些 值 被 加 载 ，ctxsw 就 从 栈 中 移 除 CONTEXT 字 节 。 文 件 cksw. S 包含 相关 代码 。 


/* ctxsw.S - ctxsw */ 


#include «mips.h» 


text 

.align 4 

.globl ctxsw 
/* Ic o C ——————————ÓrHÜt—— tq On LO ae She em ee el cess 
* ctxsw - Switch from one process context to another 
Lir C EC --—L—— aa ——————————— —————— a 
ai 

.ent ctxsw 
ctxsw: 


/* Build context record on the current process’ stack */ 
addiu sp, sp, -CONTEXT 
sw ra, CONTEXT-4 (sp) 
Sw ra, CONTEXT-8 (sp) 


/* Save callee-save (non-volatile) registers */ 


Sw s0, SO CON(sp) 
Sw sl, S1 CON(sp) 
Sw s2, S2 CON(sp) 
Sw S3, S3 CON(sp) 
Sw S4, S4 CON(sp) 
Sw s5, S5 CON(sp) 
Sw S6, S6 CON(sp) 
Sw s7, S7 CON(sp) 
Sw s8, S8 CON(sp) 
Sw s9, S9 CON(sp) 


/* Save outgoing process' stack pointer */ 
Sw sp, 0(a0) 
/* Load incoming process’ stack pointer */ 


lw sp, O(al) 
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/* At this point, we have switched from the run-time stack */ 
ye of the outgoing process to the incoming process EJ 


/* Restore callee-save (non-volatile) registers from new stack */ 


lw s0, S0 CON(sp) 
lw s1, S1 CON(sp) 
lw s2, S2 CON(sp) 
lw s3, S3 CON(Sp) 
lw s4, S4 CON(sp) 
lw s5, S5 CON(sp) 
lw s6, S6 CON(sp) 
lw s7, S7 CON(sp) 
lw s8, S8 CON(sp) 
lw s9, S9 CON(sp) 


/* Restore argument registers for the new process */ 


lw a0, CONTEXT (sp) 

lw al, CONTEXT+4 (sp) 
lw a2, CONTEXT+8 (sp) 
lw a3, CONTEXT+12 (sp) 


/* Remove context record from the new process' stack */ 
lw v0, CONTEXT-4 (sp) 
lw ra, CONTEXT-8 (sp) 

addiu sp, sp, CONTEXT 


/* If this is a newly created process, ensure */ 


/[* it starts with interrupts enabled bat 
beq v0, ra, ctxdone 

mfc0 v1, CPO_STATUS 

ori vl, vl, STATUS_IE 


mtc0 vi, CPO STATUS 


ctxdone: 
jr v0 
.end ctxsw 
正如 代码 注释 中 所 说 明 的 ， 新 创建 的 进程 应 该 以 允许 中 断 的 形式 执行 ; 其 他 进程 从 对 上 下 文 切换 
的 调用 处 返回 ， 并且 以 禁止 中 断 的 形式 执行 resched。 因 为 MIPS 使 用 协 处 理 器 处 理 中 断 ， 所 以 上 下 文 
切换 时 必须 使 用 协 处 理 器 显 式 地 允许 中 断 。 我 们 的 实现 使 用 了 一 个 技巧 : 当 创建 进程 时 ， 保 存在 CON- 
TEXT -4 单元 (sp) 和 CONTEXT -8 单元 (sp) 的 值 不 同 ， 而 对 于 其 他 进程 ， 它 们 是 相同 的 。 在 最 后 一 
步 ，ctxsw 比较 两 个 值 ， 如 果 它 们 不 相同 ， 则 人 允许 中 断 。 


5.10 重新 启动 进程 执行 的 地 址 


上 下 文 切换 产生 的 一 个 潜在 问题 是 : 在 执行 上 下 文 切 换 期 间 ， 处 理 器 将 继续 执行 ， 这 意味 着 寄存 
髓 是 可 以 改变 的 。 因 此 ， 代 码 必 须 保 证 一 旦 某 个 寄存 器 已 经 被 保存 ， 该 寄存 器 就 不 会 发 生 改 变 (和 否则， 
当 进 程 重 新 开始 运行 时 会 丢失 该 值 ) 。 程 序 计 数 器 呈现 出 特殊 的 困境 ， 因 为 保存 该 值 意味 着 当 进程 重新 
执行 时 ， 会 从 代码 中 指令 指针 所 指 的 位 置 处 继续 执行 。 如 果 当 指令 指针 保存 时 上 下 文 切换 还 没有 完成 ， 
那么 进程 将 会 在 上 下 文 切换 还 没有 发 生前 重新 执行 。ctxsw 的 代码 说 明了 如 何 解决 这 个 问题 : 选择 进程 
恢复 执行 时 的 地 址 ， 而 不 是 在 ctxsw 运行 时 保存 程序 计数 器 的 值 。 

为 了 理解 如 何 选 取 一 个 合适 的 地 址 ， 考 虑 一 个 正在 执行 的 进程 。 进 程 调 用 resched， 然 后 再 调用 
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ctxsw。 代 码 保存 一 个 好 像 进程 刚 从 调用 ctxsw 的 过 程 返回 所 用 的 地 址 ， 而 不 是 尝试 保存 ctxsw 中 程序 计 
数 器 的 值 。 也 就 是 说 ， 这 个 保存 在 程序 计数 器 中 的 值 是 返回 地 址 ， 把 ctxsw 当做 普通 的 过 程 调用 时 会 返 
回 的 地 址 。 因 此 : 
当 进 程 重新 运行 时 ， 进 程 在 调用 ctxsw 后 的 位 置 开始 执行 。 
所 有 调用 resched 的 进程 执行 上 下 文 切换 ，resched 调用 ctxsw。 因 此 ， 如 果菜 个 进程 在 任意 时 刻 释 
放 系 统 并 检查 内 存 ， 那 么 为 每 一 个 就 绪 进 程 保存 的 程序 计数 器 都 具有 相同 的 值 一 一 在 resched 调用 ctx- 
sw 后 的 那个 地 址 。 但 是 ， 每 个 进程 都 拥有 自己 的 函数 调用 栈 ， 这 意味 着 当 一 个 进程 恢复 执行 并 从 re- 
sched 返回 时 ， 返 回 能 够 跳 转 至 不 同 的 调用 者 之 后 。 
函数 返回 的 概念 是 保持 系统 干净 设计 的 一 个 重要 成 分 。 邑 数 调用 向 下 人 处理， 通过 系统 的 各 个 层次 ， 
每 个 调用 都 返回 。 为 了 强制 每 一 层 的 设计 ， 调 度 器 resched、 上 下 文 切换 ctxsw， 都 类 似 其 他 过 程 调用 和 
返回 。 概 括 来 讲 : 
E Xin 中 ， 每 个 函数 ， 包 括 调度 器 和 上 下 文 切换 ， 最 终 都 返回 到 它 的 调用 者 。 
当然 ， 重 新 调度 允许 其 他 进程 执行 ， 并 且 可 能 执行 任意 长 时 间 (依赖 于 进程 优先 级 ) Alt, dE 
调用 resched 、 调 用 返回 和 进程 重新 执行 之 间 可 能 有 比较 大 的 一 段 延 时 。 


5.11 并 发 执行 和 null 进程 
并 发 执行 抽象 是 完全 和 绝对 的 。 就 是 说 ， 操 作 系统 将 所 有 的 计算 视 为 进程 的 一 部 分 一 一 CPU 没有 


其 他 的 办 法 临时 停止 执行 进程 而 去 执行 另外 一 小 段 单独 的 代码 。 pera 
调度 器 的 设计 反映 了 下 面 的 准则 : 调度 器 的 唯一 功能 就 是 使 处 

理 器 在 正在 执行 和 一 系列 准备 运行 的 进程 之 间 切 换 。 调 度 器 不 
能 执行 进程 之 外 的 任何 代码 ， 也 不 能 创建 新 的 进程 。 图 5-4 说 

明了 进程 可 能 的 状态 转换 。 


5-4 M - Ri P a M4 Ate M 
我 们 将 看 到 一 个 进程 不 会 总 是 处 在 准备 执行 状态 。 例 如 ， Po ERR 


当 进 程 等 待 VO 操作 完成 或 者 需要 使 用 正在 被 使 用 的 共享 资源 
时 ， 就 会 停止 执行 。 那 么 ， 如 果 所 有 的 进程 都 在 等 待 VO 操作 会 发 生 什 么 ?由 于 代码 在 设计 时 假设 在 
任何 时 候 都 至 少 有 一 个 合适 的 进程 可 以 调度 运行 ， 所 以 resched 将 会 失败 。 当 当前 正在 执行 的 进程 被 阻 
塞 时 ，resched 从 就 绪 链表 中 取出 第 一 个 进程 而 不 检测 链表 是 否 为 空 。 如 果 链 表 为 空 ， 就 会 造成 错误 结 
果 。 综 上 所 述 : 

因为 操作 系统 只 能 将 CPU 从 一 个 进程 切换 到 另外 一 个 进程 ， 所 以 在 任何 时 候 都 至 少 存 在 

一 个 进程 准备 执行 。 

为 了 保证 至 少 有 一 个 进程 总 是 准备 执行 ，Xinu 使 用 标准 的 技术 : 它 在 系统 启动 时 创建 一 个 称 为 
null 进程 的 额外 进程 。null 进程 的 进程 ID 为 0 和 优先 级 为 0 (上 比 任何 进程 的 优先 级 都 低 ) null 进程 的 
代码 包含 无 限 循 环 ， 将 在 第 22 章 中 说 明 。 由 于 所 有 其 他 的 进程 都 必须 有 高 于 0 的 进程 优先 级 ， 所 以 调 
度 器 只 有 当 不 存在 其 他 准备 运行 的 进程 时 才 会 切换 到 null 进程 。 本 质 上 ， 当 其 他 所 有 进程 都 被 阻塞 时 
(如 等 待 VO 操作 完成 ) ， 操 作 系统 才 会 将 CPU 切换 到 null 进程 2 。 


5.12 ”使 进程 准备 执行 和 调度 不 变 式 

当 resched 需要 将 当前 进程 移 人 就 绪 链 表 时 ， 它 直接 对 链表 进行 操作 。 由 于 使 进程 准备 获得 CPU 
服务 发 生 的 非常 频繁 ， 我们 设计 一 个 函数 来 执行 该 操作 。 该 函数 称 为 ready, 

ready 需要 两 个 参数 : 进程 ID 和 一 个 控制 是 否 需 要 调用 resched 的 布尔 变量 。 通 过 使 用 符号 常量 
RESCHED YES fil RESCHED. NO, 调用 ready 的 目的 将 更 加 清晰 。 

考虑 第 二 个 参数 。 我 们 的 调度 策略 决定 在 任何 时 刻 最 高 优先 级 的 可 执行 进程 必须 获得 执行 。 因 此 ， 





O 某 些 处 理 器 包含 特殊 的 指令 ， 这 些 指令 在 null 进程 中 停止 CPU 执行 直到 发 生 中 断 。 使 用 这 些 特殊 指令 能 减少 
CPU 的 电源 消耗 。 
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如 果 最 高 优先 级 进程 处 于 就 绪 链 表 中 ，ready 就 应 该 调用 resched 来 保证 调度 策略 的 正确 性 。 我 们 说 每 
个 操作 系统 函数 应 该 维护 一 个 调度 不 变 式 : 这 个 函数 假设 当 该 函数 被 调用 时 ， 最 高 优先 级 的 进程 正在 
执行 ， 并 且 保 证 当 该 函数 退出 时 ， 最 高 优先 级 的 进程 依旧 在 执行 。 因此， 如 果 一 个 函数 改变 了 进程 的 
状态 ， 那 么 该 函数 必须 调用 resched 来 重新 建立 调度 不 变 式 。ready 是 一 个 例外 。 为 了 理解 其 中 的 原因 ， 
必须 知道 有 些 操作 系统 的 函数 将 多 个 进程 移 人 就 绪 链表 〈 例 如 ， 多 个 计时 器 事件 可 能 发 生 在 同一 时 
刻 )。 在 此 过 程 中 重新 调度 可 能 造成 一 些 未 完成 的 操作 。 解 决 方案 是 通过 暂时 地 挂 起 调度 策略 ， 人 允许 多 
个 使 用 RESCHED_NO 参数 的 ready 调用 。 一 旦 将 这 些 进程 加 入 到 就 绪 链 表 中 ， 就 必须 调用 一 次 resched [82] 
重新 建立 进程 调度 状态 ， 以 便 最 高 优先 级 的 进程 处 于 执行 状态 。 我 们 将 在 第 7 章 看 到 使 用 ready 的 例 
子 。 此 时 ， 明 白 当 第 二 个 参数 为 RESCHED_NO 时 ready 怎样 避免 重新 调度 就 足够 了 。 文 件 ready. c 包含 


了 该 段 代 码 。 
/* ready.c - ready */ 





#include <xinu.h> 


qidl6 readylist; /* index of ready list ay 
/* WS A i Dd ee 
* ready - Make a process eligible for CPU service 
ta eS eS SS SS SS SES SS SS SES Se a ew RD RI REI SE ee eh 
光大 
status  ready( . 
pid32 pid, /* ID of process to make ready */ 
boo18 resch /* reschedule afterward? */ 


register struct procent *prptr; 


if (isbadpid(pid)) { 
return(SYSERR); 
) 


/* Set process state to indicate ready and add to ready list */ 


prptr - &proctab[pid]; 
prptr->prstate = PR READY; 
insert (pid, readylist, prptr->prprio); 


if (resch == RESCHED_YES) { 
resched () ; 
} 
return OK; 
} 


5.13 ”推迟 重新 调度 


resched 使 用 全 局 变量 Defer. ndefers 来 决定 重新 调度 是 否 为 deferred (HEIR) RAS, PR sched_ 
entl 提供 了 一 个 接口 用 来 控制 推迟 。 调 用 者 像 这 样 使 用 该 函数 : [83 | 
Sched cntl(DEFER START); 
来 推迟 重新 调度 ， 并 使 用 : 
sched cntl(DEFER STOP); 
来 结束 推迟 。 在 某 些 系统 中 ， 中 断 处 理 器 能 够 被 更 高 优先 级 的 设备 所 中 断 ， 为 了 适应 这 些 系 统 ， 使 用 
Defer. ndefers 作为 一 个 参考 计数 器 。 当 一 个 处 理 器 请 求 推迟 开始 的 时 候 ， 计 数 增加 ; 而 当 一 个 过 程 结 





© 参见 5.6 节 中 的 resched 代码 。 
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束 其 推迟 阶段 的 时 候 ， 计 数 减少 。 当 计数 变 为 0 的 时 候 ，sched_cntl 检查 全 局 变量 Defer. ndefers 来 判断 
在 推迟 期 间 resched 是 否 被 调用 过 。 如 果 被 调用 过 ， 在 返回 调用 者 之 前 ，sched_cntl 调用 resched。 在 文 
件 sched. h 中 ， 定 义 了 一 些 用 于 推迟 的 常量 和 变量 。 


/* sched.h */ 


/* Constants and variables related to deferred rescheduling */ 


#define DEFER_START 1 /* start deferred rescehduling Ej 
#define DEFER STOP 2 /* stop deferred rescehduling i 
/* Structure that collects items related to deferred rescheduling Li 


struct defer { 


int 32 ndefers; /* number of outstanding defers *7 
boo18 attempt; /* was resched called during the si 
Pai deferral period? E, 


}; 


extern struct defer Defer; 


文件 sched. entl. c 中 包含 了 用 于 控制 推迟 的 代码 。 


/* sched cntl.c - sched cntl */ 
#include «xinu.h» 


struct defer Defer; 


/* ——————————————————— 
* sched cntl - control whether rescheduling is deferred or allowed 

| —————————————————————————————————————————— 
Ey 

Status sched cntl( /* assumes interrupts are disabled *4 


int32 def /* either DEFER START or DEFER STOP ia A 


switch (def) { 


/* Process request to defer: 27 
/* 1) Increment count of outstanding deferral requests *7 
/* 2) If this is the start of deferral, initialize Boolean */ 
ye to indicate whether resched has been called */ 


case DEFER_START: 
if (Defer.ndefers++ == 0) { /* increment deferrals */ 
Defer.attempt = FALSE;  /* no attempts so far * f 


} 

return OK; 
/* Process request to stop deferring: mf 
/* 1) Decrement count of outstanding deferral requests =y 
/* 2) If last deferral ends, make up for any calls to ep 
/* resched that were missed during the deferral * 


case DEFER STOP: 
if (Defer.ndefers «- 0) ( /* none outstanding */ 
return SYSERR; 
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if (--Defer.ndefers == 0) { /* end deferral period */ 
if (Defer.attempt) { /* resched was called ef 
resched () ; 7* during deferral */ 


} 
} 
return OK; 


default: 
return SYSERR; 


) 


5.14 ”其 他 进程 调度 算法 

进程 调度 曾经 是 操作 系统 中 的 一 个 重要 课题 ， 研 究 人 员 已 经 提出 来 许多 调度 算法 用 来 替代 像 Xinu 
所 用 的 轮转 调度 算法 。 例 如 ， 有 一 种 策略 衡量 进程 执行 的 VO 量 ， 并 把 CPU 交 给 花费 最 多 时 间 执 行 I 
0 的 那个 进程 。 支 持 者 认为 ， 因 为 VO 设备 的 速度 比 处 理 器 慢 ， 所 以 选择 一 个 执行 VO 的 进程 能 够 增 
加 系统 的 总 吞吐 量 。 

由 于 调度 的 方法 有 限 ， 测 验 Xinu 中 的 调度 策略 是 很 容易 的 。 改 变 resched 和 ready 会 改变 基本 的 调 
JER o 


5.15 观点 


调度 和 上 下 文 切 换 最 有 趣 的 方面 在 于 ， 它 们 嵌入 正常 计算 中 成 为 其 中 的 一 部 分 。 也 就 是 说 ， 与 操 
作 系 统 及 用 户 进程 分 开 实 现 不 同 ， 这 里 的 操作 系统 代码 是 进程 本 身 执 行 的 。 因 此 ， 如 果 系 统 没有 额外 
的 进程 可 以 停止 处 理 器 执行 一 个 应 用 程序 并 把 它 移动 到 另 一 个 处 理 器 上 ， 调 度 和 上 下 文 切换 就 会 作为 
函数 调用 的 副作用 而 存在 。 

我 们 将 会 看 到 ， 使 用 进程 执行 操作 系统 代码 会 影响 到 设计 。 当 程序 员 编 写 操作 系统 函数 时 ， 程 序 
员 必 须 适 应 并 发 进程 的 执行 。 同 样 ， 使 用 进程 执行 操作 系统 代码 还 会 影响 系统 如 何 与 VO 设备 交互 ， 
以 及 如 何 处 理 中 断 。 


5.16 总 结 


调度 和 上 下 文 切换 形成 了 并 发 执行 的 基础 。 调 度 指 的 是 从 可 以 执行 的 进程 中 挑选 一 个 。 上 下 文 切 
换 包 含 了 停止 一 个 进程 并 开始 一 个 新 的 进程 。 为 了 跟踪 进程 ， 系 统 使 用 一 个 称 为 进程 表 的 全 局 数据 结 
构 。 每 当 它 暂 时 挂 起 一 个 进程 时 ， 上 下 文 切换 为 进程 保存 进程 栈 中 的 处 理 器 状态 ， 并 在 进程 表 中 放置 
一 个 栈 指 针 。 当 重新 启动 一 个 进程 时 ， 上 下 文 切 换 从 进程 栈 中 重新 加 载 处 理 器 状态 信息 ， 并 从 上 下 文 
切换 函数 调用 的 返回 点 恢复 执行 进程 。 

为 了 确定 一 个 操作 何 时 是 允许 的 ， 每 个 进程 都 分 配 了 一 个 状态 (state)。 正 在 使 用 CPU 的 进程 分 
配 到 的 是 当前 (current) 状态 ,可 使 用 CPU 但 并 不 是 当前 执行 的 进程 分 配 的 是 就 绪 (ready) 状态 。 因 
为 任何 时 间 都 必须 保证 至 少 有 一 个 进程 能 够 执行 ， 所 以 操作 系统 在 启动 时 创建 了 一 个 称 为 空 进程 
(null process) 的 额外 进程 。 空 进程 的 优先 级 为 0， 而 所 有 其 他 进程 的 优先 级 均 大 于 0。 因 此 ， 空 进程 
只 有 在 没有 其 他 可 运行 的 进程 时 才 运 行 。 

本 章 介 绍 了 三 个 在 当前 和 就 绪 状 态 之 间 进 行 切换 的 函数 。resched 执行 调度 ，ctxsw 执行 上 下 文 切 
换 ，ready 确保 进程 有 资格 执行 。 


练习 

5. 1 ”如果 操作 系统 一 共有 个 进程 ,那么 在 给 定时 间 内 有 多 少 进程 可 以 处 于 就 绪 链 表 中 ? 请 给 出 说 明 。 

5.2 操作 系统 的 函数 如 何 知道 在 给 定 的 时 间 内 哪个 进程 正在 执行 ? 

5.3 重 写 resched 方法 ， 要 有 一 个 明确 的 参数 表明 正在 执行 进程 的 处 理 结 果 ， 并 检查 生成 的 汇编 代码 以 确 
定 在 每 种 情况 下 执行 的 指令 数 。 
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上 下 文 切 换 期 间 执行 的 基本 步骤 是 什么 ? 

研究 男 一 个 硬件 架构 (例如 ， 在 Intel x86) 。 并 确定 什么 样 的 信息 需要 在 上 下 文 切 换 期 间 保 存 下 来 。 
需要 多 少 内 存 来 存储 一 个 MIPS 处 理 器 的 处 理 器 状态 ”哪些 寄存 器 必须 保存 ?” 为什么? 处理 器 的 标准 
调用 规约 如 何 影响 结果 ? 

假设 进程 上 已 在 就 绪 链表 中 。 当 进程 不 变 成 当前 状态 时 ， 执 行将 从 哪里 开始 ? 

为 什么 需要 一 个 空 进程 ? 

考虑 对 存储 处 理 器 状态 的 代码 进行 修改 ， 将 其 存储 在 进程 表 中 而 不 是 进程 栈 中 〈 即 假设 进程 表 项 中 
包含 一 个 数组 ， 保 存 寄 存 器 的 内 容 ) 。 每 一 种 方法 的 优点 是 什么 ? 

在 前 面 的 练习 中 ， 在 进程 表 中 保存 寄存 器 信息 增加 还 是 减少 了 上 下 文 切 换 期 间 执行 的 指令 数 ? 
设计 一 个 双核 处 理 器 〈 即 包含 两 个 可 以 并 行 执行 的 独立 CPU 的 处 理 器 ) 的 调度 策略 。 

扩展 前 面 的 练习 : 说 明 在 一 个 核 上 执行 resched 可 能 需要 改变 正在 运行 在 该 核 上 的 进程 CE: 许多 
双核 处 理 器 的 操作 系统 通过 指定 所 有 的 操作 系统 函数 (包括 调度 ) 来 避免 这 个 问题 ， 以 此 来 运行 其 
中 一 个 核 上 的 进程 ) 。 

代码 包含 了 两 个 用 于 推迟 重新 调度 的 机 制 : ready 有 一 个 允许 调用 者 避免 重新 调度 的 参数 ，sched_ 
entl 设置 了 一 个 全 局 的 位 使 resched 忽略 调用 。 为 什么 要 包含 这 两 种 机 制 ? 提示 : 比较 效率 和 开销 。 
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当 人 们 停止 丽 惧 之 时 ， 正 是 科学 兴旺 之 时 。 
一 一 佚名 


6.1 引言 

第 5 章 讨 论 了 并 发 执行 的 抽象 和 执行 过 程 。 本 章 介绍 操作 系统 如 何在 一 个 表 中 存储 进程 的 信息 ， 
以 及 如 何 为 每 个 进程 分 配 一 个 状态 。 第 5 章 还 介绍 了 调度 和 上 下 文 切换 的 概念 。 它 展示 了 调度 者 如 何 
完成 一 个 调度 策略 ， 以 及 进程 如 何在 就 绪 状态 和 当前 状态 之 间 切 换 。 

本 章 则 拓展 我 们 对 于 进程 管理 的 知识 。 本 章 介绍 如 何 产生 一 个 新 的 进程 ， 以 及 当 进 程 退 出 时 会 发 
生 什 么 。 本 章 还 检查 允许 一 个 进程 暂时 挂 起 的 进程 状态 ， 并 探讨 在 当前 、 就 绪 和 挂 起 状态 之 间 切 换 进 
程 的 方法 。 


6.2 进程 挂 起 和 恢复 
操作 系统 函数 有 时 需要 暂时 停止 一 个 进程 的 执行 ， 并 在 以 后 恢复 其 执行 。 我 们 说 已 停止 的 进程 处 
于 “假死 ”状态 。 假 死 是 很 有 必要 的 ， 例 如 ， 当 一 个 进程 等 待 几 个 重启 条 件 之 一 ， 但 并 不 知道 哪个 条 


件 将 会 最 先 满足 。 
实现 操作 系统 功能 的 第 一 步 是 定义 一 组 操作 。 在 假死 情况 下 ， 理 论 上 仅 靠 两 个 操作 就 可 以 提供 所 
有 需要 的 功能 : 
e due. 一 个 进程 并 将 其 设置 为 假死 〈 即 让 进程 无 资格 resched 
使 用 CPU), 
e RA: 继续 执行 之 前 挂 起 的 进程 〈 即 让 进程 有 资格 使 
Hj CPU), 





suspend 






因为 没有 资格 使 用 CPU， 所 以 一 个 挂 起 的 进程 不 能 保持 
就 绪 或 当前 状态 。 因 此 ， 必 须发 明 一 个 新 的 状态 。 我 们 称 这 
个 状态 叫做 挂 起 ， 然 后 在 状态 图 中 加 入 这 个 新 状态 并 将 它 和 
某 些 转换 关联 起 来 。 图 6-1 展示 了 扩展 的 状态 图 ， 总 结 了 挂 起 
和 恢复 如 何 影响 进程 的 状态 。 结果 图 说 明了 在 就 绪 、 当 前 和 图 6-1 当前 、 就 绪 和 挂 起 状态 之 间 
挂 起 状态 之 间 的 可 能 转换 。 的 转换 


6.3 自我 挂 起 和 信息 隐藏 

尽管 图 6-1 中 的 每 个 状态 都 有 一 个 标签 指定 了 一 个 特定 函数 ， 但 进程 挂 起 和 进程 管理 还 是 存在 一 
个 重要 区 别 : 挂 起 允许 一 个 进程 挂 起 另 一 个 ， 而 并 不 仅仅 是 作用 在 当前 进程 上 。 恢 复 必须 允许 一 个 正 
在 执行 的 进程 恢复 一 个 之 前 被 挂 起 的 进程 。 因 此 ， 挂 起 和 恢复 均 需 要 指定 应 该 执行 进程 的 进程 ID。 

一 个 进程 可 以 挂 起 自己 吗 ? 是 的 。 为 了 这 么 做 ， 进 程 必须 获取 自身 进程 ID 并 将 其 作为 参数 传递 给 
挂 起 函数 。 由 于 全 局 变量 currpid 记录 了 当前 正在 执行 的 进程 ， 所 以 一 个 自我 挂 起 可 以 如 下 实现 : 

susped(currpid); 

然而 ,一 个 设计 良好 的 操作 系统 应 遵循 信息 隐藏 的 原则 : 实现 细节 一 般 不 暴露 。 因 此 ，Xinu 并 不 
允许 进程 直接 接触 全 局 变量 ， 如 currpid， 而 是 调用 一 个 叫做 getpid 的 函数 来 获取 进程 ID, Kk, EH 
起 自身 ， 进 程 这 样 调用 : 


suspend 


susped (getpid()); 


在 上 述 例子 里 getpid 的 实现 仅仅 返回 了 currpid 的 值 ， 这 看 起 来 似乎 没什么 必要 。 然 而 ， 当 考虑 改 
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动 操作 系统 时 ， 信 息 隐藏 的 好 处 就 会 体现 出 来 。 如 果 所 有 进程 都 调用 getpid， 设 计 者 就 可 以 改变 进程 
ID 的 存储 位 置 和 存储 方式 的 细节 ， 而 不 需要 改变 其 他 代码 。 
这 里 的 重点 在 于 : 
好 的 系统 设计 遵循 信息 隐藏 的 原则 ,除非 实在 有 必要 ， 否 则 实现 细节 是 不 暴 圳 的。 隐藏 
这 些 细节 使 得 可 以 在 不 重 写 调用 函数 的 情况 下 更 改 函 数 的 实现 。 


6.4 系统 调用 的 概念 

理论 上 ， 进 程 恢复 直接 明了 。 进 程 必 须 处 于 就 绪 状 态 下 并 插 和 人 就 绪 链表 的 正确 位 置 。 由 于 第 5 
章 描 述 的 ready 函数 执行 这 两 个 任务 ， 所 以 看 起 来 恢复 好 像 是 不 需要 的 。 然 而 ， 实 际 上 ， 恢 复 增加 了 
一 层 额 外 的 保护 : 它 不 对 调用 者 或 参数 正确 性 做 假设 ， 任 意 一 个 进程 可 以 在 任意 时 间 以 任意 参数 调 
用 恢复 。 

我 们 使 用 术语 系统 调用 来 区 分 像 恢 复 这 样 的 函数 和 像 就 绪 这 样 的 内 部 函数 。 一 般 来 说 ,我 们 认为 
一 组 系统 调用 就 是 定义 了 一 种 从 外 部 观察 操作 系统 的 视角 一 一 应 用 程序 进程 调用 系统 调用 来 获取 服务 。 
除了 增加 一 层 保护 外 ， 系 统 调用 接口 是 另 一 个 信息 隐藏 的 例子 : 应 用 程序 对 内 部 实现 并 不 知晓 ， 仅 仅 
使 用 一 组 系统 调用 来 获取 服务 。 我 们 将 会 看 到 系统 调用 和 其 他 方法 的 区 别 贯 穿 于 整个 操作 系统 。 下 面 
总 结 一 下 : 

系统 调用 为 应 用 程序 定义 了 操作 系统 服务 ， 它 保护 系统 以 避免 非法 使 用 ， 并 隐藏 底层 实 

现 的 信息 。 

为 了 提供 保护 ， 系 统 调用 处 理 上 层 函 数 所 不 做 的 三 个 方面 的 计算 : 

e 检查 所 有 参数 。 

e 确保 修改 会 保留 全 局 数据 结构 状态 的 一 致 性 。 

e. 向 调用 者 报告 成 功 或 失败 。 

本 质 上 ， 系 统 调用 并 不 对 调用 它 的 进程 做 任何 假定 。 因 此 ， 系 统 调用 会 检查 每 个 参数 ， 而 不 是 假 
定 调用 者 提供 了 正确 而 有 意义 的 参数 。 更 重要 的 是 , 许多 系统 调用 会 改变 操作 系统 的 数据 结构 ， 如 进 
程 表 和 用 队列 存储 的 进程 链表 。 系 统 调用 必须 确保 没有 其 他 进程 试图 同时 改变 数据 结构 ， 否 则 就 会 产 
生 不 一 致 性 。 因 为 系统 调用 不 能 假定 在 何 种 情况 下 它 将 被 调用 ， 所 以 必须 采取 措施 来 防止 其 他 更 改 数 
据 结构 的 进程 并 发 执行 。 这 包含 两 个 方面 : 

e 避免 任何 自动 让 出 CPU 的 函数 调用 。 

e 禁用 中 断 以 防止 被 迫 让 出 CPU, 

为 了 防止 自动 让 出 CPU， 系 统 调 用 必须 避免 直接 或 间接 地 调用 resched。 也 就 是 说 ， 当 正在 进行 修 
改 时 ， 系 统 调用 不 能 直接 调用 resched 或 者 任何 调用 resched 的 函数 。 为 了 防止 被 迫 让 出 CPU， 系 统 调 
用 禁止 中 断 直 至 修改 完成 。 在 第 12 章 中 ,我 们 将 明白 其 中 的 原因 : 硬件 中 断 可 以 导致 重新 调度 ， 因 为 
某 些 中 断 例 程 会 调用 resched, 

一 个 示例 系统 调 将 有 助 于 阐明 这 两 个 方面 ， 看 一 下 文件 resume. c 中 的 代码 : 


/* resume.c - resume */ 











#include «xinu.h» 


/* PT IN I — t ———————— NE IR RE IE nie 
* resume -  Unsuspend a process, making it ready 
[n ee ee es ee lecito tici i RR Sg ee eee 
my 
pril6 resume ( 
pid32 pid /* ID of process to unsuspend *y 
) 
{ 
intmask mask; /* saved interrupt mask *f 


struct procent *prptr; /* ptr to process’ table entry */ 
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prii6 prio; /* priority to return EJ 


mask - disable(); 
prptr - &proctab[pid]; 
if (isbadpid(pid) || (brptr-»prstate !- PR SUSP)) { 
restore (mask); 
return (pri16)SYSERR; 
) 
prio - prptr-»prprio; /* record priority to return tai 
ready (pid, RESCHED YES); 
restore (mask); 
return prio; 


) 


6.5 禁止 中 断 和 恢复 中 断 

恢复 中 的 代码 检查 参数 pid， 以 确保 调用 者 提供 了 一 个 有 效 的 进程 ID 并 且 指 定 的 进程 处 于 挂 起 状 
态 。 然 而 ， 在 执行 任何 计算 之 前 ， 恢 复 首 先 保证 中 断 不 会 发 生 〈 即 除非 恢复 调用 操作 系统 函数 导致 上 
下 文 切换 ， 否 则 上 下 文 切换 不 会 发 生 ) 。 为 了 控制 中 断 ， 恢 复 使 用 这 样 一 对 函数 ” : 

e 函数 disable 禁止 中 断 并 且 返 回 先 前 的 中 断 状 态 给 调用 者 。 

© 函数 restore 从 先前 保存 的 值 中 重新 载 人 中 断 状态 。 

恢复 在 人 口 处 立即 禁止 中 断 。 恢 复 可 以 在 两 种 情况 下 返回 : 因为 检测 到 一 个 错误 或 者 因为 恢复 成 
功 完成 操作 请 求 。 无 论 哪 种 情况 ， 恢 复 都 必须 在 返回 前 调用 还 原 (restore) ， 以 重 置 中 断 状态 ， 使 调用 
者 使 用 的 值 与 调用 开始 时 相同 。 

没有 编写 操作 系统 代码 经 验 的 程序 员 往 往 期 望 系统 调用 返回 前 启用 中 断 。 然 而 ， 还 原 更 具 一 般 性 。 
因为 它 还 原 了 中 断 ， 而 不 是 简单 地 启用 它们 ,无 论 在 调用 期 间 中 断 是 启用 的 还 是 禁止 的 ， 恢 复 都 能 正 
确 工作 。 一 方面 ， 如 果 一 个 函数 调用 恢复 时 禁止 了 中 断 ， 那 么 调用 也 将 以 中 断 禁 止 的 状态 返回 。 另 一 
方面 ， 如 果 一 个 函数 调用 恢复 时 启用 了 中 断 ， 那 么 调用 也 将 以 中 断 启用 的 状态 返回 。 

系统 调用 必须 禁止 中 断 来 阻止 其 他 进程 改变 全 局 数据 结构 ， 使 用 一 个 禁止 /还 原 范 例 来 增 
加 一 般 性 。 


6.6 系统 调用 模板 


我 们 可 以 从 另 一 个 角度 来 思考 中 断 处 理 ， 将 注意 力 集中 到 系统 函数 必须 维护 的 不 变性 上 : 
操作 系统 函数 必须 总 是 以 它 被 调用 时 一 样 的 中 断 状态 返回 给 其 调用 者 。 
为 了 确保 这 个 不 变性 ， 操 作 系统 函数 遵循 图 6-2 阐明 的 通用 方法 。 


6.7 系统 调用 返回 SYSERR 和 OK fé 


我 们 将 看 到 有 些 系 统 调用 返回 一 个 和 正在 执行 的 函数 相关 的 值 ， 另 一 些 仅 仅 返 回 一 个 状态 指示 调 
用 成 功 。 恢 复 是 前 者 的 一 个 例子 : 它 返回 被 恢复 进程 的 优先 级 。 在 恢复 的 例子 中 ， 必 须 注意 在 调用 就 
绪 之 前 记录 优先 级 ， 因 为 要 恢复 过 程 的 优先 级 可 能 高 于 当前 执行 的 进程 。 因 此 , 一 旦 就 绪 把 指定 的 进 
程 放置 到 就 绪 链 表 中 并 调用 resched 时 ， 就 可 能 开始 执行 新 的 进程 。 事 实 上 ， 任 意 延 迟 都 可 能 发 生 在 恢 
复 调 用 就 结 和 调用 执行 之 间 。 在 延迟 期 间 ， 可 以 执行 任意 数量 的 其 他 进程 ， 并 且 这 些 进 程 可 能 会 终止 。 
因此 ， 为 了 确保 在 恢复 时 ， 返 回 的 优先 级 反映 了 被 恢复 进程 的 优先 级 ， 恢 复 在 调用 就 结 之 前 准备 一 个 
副本 在 局 部 变量 prio 中 。 恢 复 使 用 该 局 部 副本 作为 返回 值 。 





O 第 12 章 解释 中 断 处 理 的 细节 。 
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syscall function name (args) t 


intmask mask; 
mask - disable(); 


if ( argsare incorrect ) { 
restore (mask); 
return(SYSERR); 
) 


.. Other processing ... 


if ( anerror occurs ) ( 
restore (mask); 
return(SYSERR); 
) 


... more processing... 


restore (mask); 


return( appropriate value ) ; 


/* m Er fs E */ 
/* 在 函数 开始 时 禁止 中 断 */ 


/* 在 返回 错误 前 还 原 中 断 */ 


/* 在 返回 错误 前 还 原 中 断 */ 





/* 在 正常 返回 前 还 原 中 断 */ 








6.8 挂 起 的 实现 


如 图 6-1 Fras, suspend 函数 只 能 用 于 处 于 运行 或 者 就 绪 状态 的 进程 。 对 于 就 绪 进程 ， 挂 起 操作 的 
实现 并 不 复杂 ， 只 需要 从 就 绪 链表 中 移 除 该 进程 ， 并 且 修 改进 程 状态 为 挂 起 。 在 从 就 绪 链 表 中 删除 该 
进程 并 修改 进程 状态 为 PR_SUSP 之 后 ，suspend 函数 将 会 恢复 中 断 并 且 返 回 到 调用 者 。 被 挂 起 的 进程 


图 6-2 


不 会 占用 CPU 直到 其 再 次 恢复 执行 为 止 。 


挂 起 当前 正在 运行 的 进程 同样 容易 。 按 照 在 第 5 章 中 列 出 的 步 又，suspend 函数 必须 修改 当前 正在 
运行 进程 的 状态 为 PR_SUSP， 调 用 resched 函数 。 也 就 是 说 ，suspend 函数 将 当前 正在 运行 进程 的 状态 


设置 为 预期 的 下 一 个 状态 。 
在 suspend. c 文件 中 能 够 找到 suspend 函数 的 实现 代码 。 


/* suspend.c - suspend */ 


#include <xinu.h> 


操作 系统 函数 的 通用 一 般 形式 的 图 例 


Xin 定义 了 两 个 常量 作为 整个 系统 中 使 用 的 返回 值 。 函 数 返 回 SYSERR， 表 明 在 处 理 过 程 中 发 生 
了 错误 。 也 就 是 说 ， 如 果 参 数 不 正 确 〈 如 超出 可 接受 的 范围 ) 或 请 求 的 操作 无 法 成 功 完 成 ， 系 统 函 数 
返回 SYSERR。 有 的 函数 (如 就 绪 ) 不 会 计算 一 个 特定 的 返回 值 ， 而 使 用 常量 OK 表明 操作 成 功 。 


*/ 


“y 
%f 


/* um a ca a a a re E er secre a ses De Se o Sm me 
* suspend - Suspend a process, placing it in hibernation 
AR 
*/ 

syscall suspend( 

pid32 pid /* ID of process to suspend 
) 
{ 
intmask mask; /* saved interrupt mask 
struct procent *prptr; /* ptr to process’ table entry 
pril6 prio; /* priority to return 


mask = disable(); 
if (isbadpid(pid) || (pid == NULLPROC)) ( 


Hi 
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restore (mask) ; 
return SYSERR; 
} 


/* Only suspend a process that is current or ready */ 


prptr = &proctab[pid]; 

if ((prptr->prstate != PR_CURR) && (prptr->prstate != PR_READY)) { 
restore (mask) ; 
return SYSERR; 

} 

if (prptr->prstate == PR_READY) { 


getitem(pid); /* remove a ready process *7 
/* from the ready list #4 
prptr->prstate = PR_SUSP; 
} else ( 
prptr->prstate = PR_SUSP; /* mark the current process */ 
resched(); /* suspended and reschedule */ 


} 

prio = prptr->prprio; 
restore (mask); 

return prio; 

} 

和 resume 函数 一 样 suspend 函数 也 是 一 个 系统 调用 。 这 就 意味 着 ， 当 该 函数 被 调用 的 时 候 将 禁止 
中 断 。 此 外 ，suspend 函数 还 检查 参数 pid 是 否 为 合法 的 进程 标识 号 。 因 为 挂 起 操作 只 能 用 于 就 绪 或 当 
前 进程 ， 所 以 代码 还 需要 检验 进程 状态 是 否 为 这 两 种 状态 之 一 。 如 果 发 现 了 错误 ，suspend 函数 就 恢复 
中 断 并 返回 SYSERR 给 调用 者 。 


6.9 挂 起 当前 进程 

在 挂 起 当前 执行 进程 的 代码 中 ， 有 两 点 值得 关注 。 第 一 ， 当 前 执行 的 进程 至 少 会 临时 停止 执行 。 
因此 当前 进程 在 挂 起 之 前 ， 必 须 预 先 安排 好 其 他 进程 在 以 后 继续 执行 当前 进程 (否则 当前 进程 将 会 永 
远 处 于 挂 起 状态 ) 。 第 二 ， 由 于 当前 进程 将 挂 起 ， 所 以 它 必 须 允 许 其 他 进程 执行 。 因 此 ， 在 挂 起 当前 进 
程 的 时 候 ，suspend 函数 必须 调用 resched 函数 。 其 中 的 关键 在 于 ， 当 一 个 进程 挂 起 自己 的 时 候 ， 进 程 
将 会 继续 执行 直到 resched 函数 选择 了 其 他 进程 并 且 完成 了 上 下 文 切换 。 

需要 注意 的 是 ， 当 进程 挂 起 时 ，resched 函数 并 不 会 将 该 进程 放置 在 就 绪 链表 中 。 实 际 上 ， 挂 起 的 
进程 也 并 不 放置 在 一 个 类 似 于 就 绪 链表 那样 的 挂 起 链表 中 。 就 绪 进 程 存 放 在 一 个 有 序 链表 中 只 是 为 了 
在 重新 调度 的 时 候 加 快 对 高 优先 级 进程 的 搜索 。 因 为 系统 在 寻找 进程 继续 执行 的 时 候 不 会 考虑 挂 起 的 
进程 ， 所 以 也 就 没有 必要 把 挂 起 的 进程 用 链表 进行 维护 。 因 此 ， 在 挂 起 进程 之 前 ， 程 序 员 必须 安排 一 
种 方法 使 进程 以 后 能 继续 执行 。 


6. 10 ”suspend 函数 的 返回 值 

suspend 函数 和 resume 函数 一 样 ， 返 回 挂 起 进程 的 优先 级 给 调用 者 。 对 于 一 个 就 绪 进程 ， 返 回 值 将 
反映 在 suspend 函数 调用 时 该 进程 的 优先 级 (一旦 suspend 函数 禁止 中 断 ， 任 何其 他 进程 都 不 能 修改 优 
先 级 ， 所 以 能 够 在 suspend 函数 恢复 中 断 前 的 任何 时 候 记 录 优 先 级 ) 。 然 而 ， 对 于 当前 正在 运行 的 进 
程 ， 问 题 就 出 现 了 : suspend 函数 返回 的 优先 级 是 suspend 函数 调用 时 该 进程 的 优先 级 还 是 该 进程 在 以 
后 被 继续 执行 后 所 拥有 的 优先 级 (换言之 ,在 suspend 返回 之 后 ) 。 从 代码 的 角度 而 言 ， 问 题 就 是 对 优 
先 级 的 记录 必须 在 调用 resched 之 前 还 是 之 后 (上面 的 代码 在 调用 之 后 记录 ) 。 

为 了 理解 为 何 返 回 进程 继续 执行 之 后 的 优先 级 ， 可 以 考虑 优先 级 如 何 用 来 传递 信息 。 例 如 ， 假 
设 进程 需要 挂 起 直到 某 两 个 事件 中 的 任何 一 个 发 生 。 程 序 员 可 以 赋予 每 个 事件 一 个 唯一 的 优先 级 数 
值 〈 例 如 ，25 和 26) ， 并 且 在 与 两 个 事件 关联 的 对 resume 函数 调用 中 分 别 将 优先 级 设 定 为 对 应 的 
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值 。 之 后 ， 挂 起 的 进程 在 返回 继续 执行 之 后 就 可 以 通过 返回 的 优先 级 确定 哪个 事件 的 触发 导致 其 继 
续 执 行 : 
newprio = suspend( getpid() ); 
1f (newprio == 25) { 
. event 1 occurred... 
} else { 
. event 2 occurred... 
} 


6.11 进程 终止 和 进程 退出 

尽管 suspend 函数 临时 冻结 了 进程 状态 ， 但 是 suspend 保存 了 进程 的 相关 信息 ， 所 以 进程 仍然 可 
以 在 之 后 被 唤醒 。 另 一 个 系统 调用 k 记 通过 从 系统 中 完全 移 除 进程 来 实现 进程 的 终止 。 一 旦 进程 被 
杀 死 ， 它 将 无 法 被 重新 运行 ， 因 为 kill 已 经 彻底 清除 了 该 进程 的 所 有 记录 并 且 释 放 了 该 进程 的 进程 
表 中 的 表 项 。 

kill 所 进行 的 操作 取决 于 进程 状态 。 在 编写 代码 之 前 ， 设 计 者 需要 考虑 每 个 可 能 出 现 的 进程 状态 和 
在 该 状态 下 终止 进程 可 能 产生 的 情况 。 例 如 ， 我 们 将 会 看 到 ， 处 于 就 绪 、 睡 眠 ， 或 者 等 待 状态 的 进程 
存放 在 一 个 用 链表 实现 的 队列 数据 结构 中 ， 这 也 就 意味 着 Kill 必须 先 让 该 进程 出 队 。 在 第 7 章 中 , 我 
们 将 会 看 到 如 果 一 个 进程 正在 等 待 一 个 信号 量 ， 那 么 Kill 必须 调整 该 信号 量 的 计数 。 在 我 们 检查 了 进 
程 状态 和 那些 控制 状态 的 函数 之 后 ， 以 上 情况 都 将 变 得 清楚 明了 。 目 前 ， 理 解 kill 系统 调用 的 整体 结 
构 和 处 理 处 于 当前 和 就 绪 状 态 的 进程 的 方法 就 已 经 足够 了 。 在 Kill. e 文件 中 可 以 找到 kill 系统 调用 的 
代码 。 

kill 首先 检查 输入 参数 pid 以 确保 该 参数 对 应 一 个 合法 的 进程 而 不 是 空 进程 〈 空 进程 不 能 被 杀 死 ， 
因为 它 必须 保持 运行 状态 ) Rie, kill 减 小 preount 变量 ， 该 全 局 变量 记录 活动 的 用 户 进程 数 。 之 后 调 
用 freestk 函数 释放 分 配给 进程 栈 的 内 存 空间 。 剩 下 的 操作 取决 于 进程 状态 。 对 于 一 个 处 于 就 绪 状 态 的 
Efe, kil 将 会 从 就 绪 链 表 中 移 除 该 进程 并 在 进程 表 中 将 该 进程 对 应 表 项 的 状态 设置 为 PR_FREE， 从 
而 释放 该 进程 的 进程 表 项 。 由 于 该 进程 从 就 绪 链表 中 移 除 了 ， 所 以 在 重新 调度 的 时 候 该 进程 就 不 会 被 
选中 。 因 为 在 进程 表 中 该 进程 对 应 的 状态 为 PR_FREE， 所 以 它 在 进程 表 中 的 条 目 就 可 以 被 回收 重 
用 了 。 

现在 ， 让 我 们 来 考虑 一 下 当 kill 需要 终止 当前 正在 执行 的 进程 时 会 发 生 什 么 。 我 们 称 之 为 进程 退 
出 〈exit) 。 与 之 前 一 样 ，kill 首先 检查 参数 并 且 减 小 活动 进程 数 。 如 果 当 前 进程 正好 是 最 后 一 个 用 户 
进程 ， 那 么 减 小 preount 变量 将 会 使 之 变 为 0， 在 这 种 情况 下 kill 将 调用 xdone 函数 ， 这 将 在 之 后 进行 解 
释 。 在 将 当前 进程 状态 标记 为 释放 之 后 ，kill 调用 resched 函数 将 CPU 控制 权 转 交 给 其 他 的 就 绪 进程 。 


/* kall.e = kill */ 


#include «xinu.h» 


/* l—Á—————————— ————  ——— ——— —————— ——Ó——————————— 
* kill - Kill a process and remove it from the system 
o A TT OE TC A CA A RESO ici 
wg 
syscall kill( 
pid32 pid /* ID of process to kill */ 
) 
{ 
intmask mask; /* saved interrupt mask xy 
struct procent *prptr; /* ptr to process’ table entry */ 
int32 is /* index into descriptors */ 


mask - disable(); 
if (isbadpid(pid) || (pid == NULLPROC) 
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|| ((prptr = &proctab[pid])->prstate) == PR_FREE) { 
restore (mask) ; 
return SYSERR; 
} 
if (--prcount <= 1) { /* last user process completes  */ 
xdone(); 
} 


send(prptr->prparent, pid); 
for (i=0; i<3; i++) ( 
close (prptr->prdesc[i]); 


} 
freestk(prptr-»prstkbase, prptr->prstklen) ; 


switch (prptr->prstate) { 

case PR_CURR: 
prptr->prstate = PR_FREE; /* suicide */ 
resched(); 


case PR SLEEP: 

case PR RECTIM: 
unsleep (pid); 
prptr-»prstate - PR FREE; 
break; 


Case PR WAIT: 
semtab[prptr->prsem] .scount++; 
/* fall through */ 


case PR_READY: 
getitem(pid) ; /* remove from queue */ 
/* fall through */ 


default: 
prptr->prstate = PR_FREE; 


restore (mask) ; 
return OK; 


) 

当 最 后 一 个 用 户 进程 退出 之 后 ，kill 调用 xdone 函数 。 在 某 些 系统 中 ，xdone 将 会 关闭 设备 。 在 我 
们 的 例子 中 ，xdone 仅仅 在 控制 台 上 打印 一 条 消息 ， 关 闭 标志 系统 运行 的 LED 屏幕 ， 并 且 将 处 理 器 停 
机 。 该 段 代 码 能 够 在 xdone. c 中 找到 。 


/* xdone.c - xdone */ 


#include <xinu.h> 


/* dele 
* xdone - Print system completion message as last thread exits 
EE PE ERE CE CR SO n aa Ca Up um Min a Lu ra TEVERE EE EE ce EE E RS E 
*j 
void xdone (void) 
( 
kprintf("\r\n\r\nAll user processes have completed. \r\n\r\n"); 
gpioLEDOff(GPIO LED CISCOWHT);  /* turn off LED "run" light */ 
halt(); /* halt the processor v 
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为 什么 kill 函数 一 定 要 调用 xdone? 这 么 做 看 似 没有 必要 ， 因 为 xdone 中 的 代码 非常 普通 并 且 很 容 
易 就 加 入 到 kill 函数 中 。 用 一 个 函数 将 这 些 操作 包装 起 来 是 出 于 功能 分 隔 的 考虑 。 这 样 ， 程 序 员 就 可 
以 通过 修改 xdone 函数 来 修改 所 有 进程 退出 之 后 所 做 的 操作 而 不 需要 修改 kill 函数 本 身 。 

现在 还 有 一 个 更 严重 的 问题 ， 在 最 后 一 个 用 户 进程 从 系统 中 移 除 之 前 ，xdone 函数 就 被 调用 了 。 为 
了 理解 这 个 问题 ， 考 虑 这 样 一 个 容错 设计 ， 当 所 有 进程 退出 之 后 ， 调 用 xdone 函数 将 自动 重启 进程 。 
在 当前 实现 中 ， 当 xdone 被 调用 的 时 候 ， 进 程 表 中 仍然 有 一 个 进程 表 项 被 使 用 (从 而 可 能 导致 重启 之 
后 系统 中 已 经 有 一 个 用 户 进程 )。 在 本 章 练习 中 将 会 考虑 另外 一 种 备 选 实现 。 


6.12 ”进程 创建 

正如 我 们 所 看 到 的 那样 ， 进 程 是 动态 的 一 一 进程 能 够 在 任何 时 刻 创建 。 系 统 调用 create 启动 一 个 
新 的 、 独 立 的 进程 。 本 质 上 create 创建 进程 的 映像 就 好 像 正 在 运行 的 进程 被 停止 了 一 样 。 一 旦 映像 被 
创建 并 且 进 程 放置 到 就 绪 链 表 中 ，ctxsw 就 能 够 切换 到 该 进程 。 

让 我 们 看 看 create. c 的 源 代码 以 解释 其 中 的 细节 。create 函数 使 用 newpid 函数 从 进程 表 中 获取 一 个 
ZA (REA) MARA. 一旦 找到 了 空 闪 的 条 有 目 ，create 函数 将 会 为 新 进程 的 栈 分 配 空间 ， 并 且 填 充 进 
程 表 中 对 应 表 项 的 信息 。create 函数 通过 调用 getstk 函数 来 为 栈 分 配 空间 (第 9 章 将 会 讨论 内 存 分 配 ) 。 

create 函数 的 第 一 个 参数 指明 了 进程 开始 执行 的 函数 的 初始 地 址 。create 函数 在 进程 栈 空间 上 形成 
一 个 被 保存 的 上 下 文 环境 ， 就 好 像 指 定 函数 被 调用 了 一 样 。 因 此 ， 我 们 将 对 进程 上 下 文 的 初始 配置 
称 为 一 次 伪 调 用 。 为 了 制造 这 样 一 个 伪 调 用 ，create 函数 在 进程 栈 上 为 上 下 文 分 配 空 间 ， 保 存 寄 存 器 的 
初始 值 ， 在 进程 表 的 对 应 表 项 中 保存 栈 指 针 。 当 ctxsw 切换 到 该 进程 的 时 候 ， 新 的 进程 将 开始 执行 指定 
的 函数 ， 遵 循 通用 的 调用 规范 来 访问 参数 并 为 局 部 变量 分 配 空 间 。 简 而 言 之 ， 进 程 的 初始 函数 就 像 在 
之 前 被 调用 了 一 样 。 

ABA create 函数 要 用 什么 作为 伪 调 用 的 返回 地 址 呢 ? 返回 地 址 的 值 决定 了 系统 在 进程 从 初始 (Di 
层 ) 函数 返回 之 后 所 要 执行 的 动作 。 我 们 的 示例 系统 遵循 一 个 著名 的 范式 : 

如 果 一 个 进程 从 它 开始 执行 的 初始 (顶层 ) 函数 返回 ， 那 么 该 进程 将 退出 。 

更 精确 地 说 ， 我 们 必须 能 够 区 别 从 函数 自身 返回 和 从 初始 调用 返回 。 这 两 者 之 所 以 有 区 别 ， 是 因 
为 C 语言 允许 函数 的 递归 调用 。 如 果 一 个 进程 开始 执行 函数 X， 并 且 在 忒 中 递 归 调 用 七， 那么 第 一 个 
返回 仅仅 将 第 一 层 递 归 的 栈 帧 弹出 栈 并 返回 到 初始 调用 栈 帧 中 ， 而 不 会 导致 进程 退出 。 如 果 进 程 再 一 
VR (REPA T X 函数 的 末尾 ) 而 不 再 产生 其 他 调用 ， 进 程 将 退出 。 

为 了 在 初始 调用 返回 的 时 候 退 出 进程 ，create 函数 将 userret 函数 的 地 址 作为 伪 调 用 的 返回 地 址 。 
代码 使 用 符号 常量 INITRET 符号 来 表示 userret 函数 名 。 如 果 在 初始 调用 中 进程 执行 到 了 指定 函数 未 
端 或 者 显 式 调用 了 retum ， 那 么 控制 权 将 转交 给 userret 函数 。userret 函数 通过 调用 kill 函数 来 终止 当前 
进程 。 下 面 列 出 的 userret c 文件 包含 了 具体 代码 。 

create 函数 还 会 填充 进程 表 中 的 表 项 。 特 别 地 ，create 函数 将 新 创建 的 进程 状态 置 为 PR_SUSP， 即 
HEE, MAMA. BUE, create 函数 返回 新 创建 进程 的 进程 ID。 在 进程 开始 执行 之 前 ， 必 须 将 该 进 
程 恢 复 。 

许多 进程 初始 化 的 细节 取决 于 C 语言 运行 环境 一 一 如 果 不 知道 细节 不 能 写 出 启动 进程 的 代码 。 例 
All, create 函数 将 初始 参数 放置 在 寄存 器 中 ， 并 且 将 连续 参数 放置 在 栈 中 。 将 参数 压 栈 的 那 部 分 代码 也 
许 比较 难以 理解 ， 因 为 create 函数 直接 从 它 自 己 的 栈 空间 中 复制 参数 到 分 配给 新 进程 的 栈 空间 上 。 为 
了 实现 这 一 功能 ，create 函数 在 它 自己 的 栈 上 找到 参数 的 地 址 ， 并 且 使 用 指针 运算 将 参数 地 址 移 到 链表 
中 。 这 些 细节 取决 于 处 理 器 架构 和 所 使 用 的 编译 器 。 


/* create.c - create, newpid */ 


#include <xinu.h> 
#include <mips.h> 





O 〈 即 为 指定 的 函数 构造 一 个 栈 帧 )。 一 一 译 者 注 。 
O ”使 用 符号 常量 能 够 通过 修改 配置 文件 而 不 是 代码 来 完成 修改 。 
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static pid32 newpid (void); 


/* Ss a Ss wa a TI ERE Se en ss VT a a i iii ini a ini i cin im ee in min ioni 
* create, newpid - Create a process to start running a procedure 
vu dba eon Ket ae i i i Ld See Mee SS Á — M — —————MÓ Qe 
Yy 
pid32 create ( 
void *funcaddr, /* address of function to run = 
uint32 ssize, /* stack size in bytes wf 
pril6 priority, /* process priority x. 
char *name, /* process name (for debugging) */ 
uint32 nargs, /* number of args that follow  */ 
) 
{ 
intmask mask; /* saved interrupt mask né i 
struct procent *prptr; /* ptr to process’ table entry */ 
uint32 *saddr; /* stack address */ 
uint32  *savargs; /* pointer to arg save area *7 
Pid32 pid; /* ID of newly created process */ 
uint32  *ap; /* points to list of var args #/ 
int32 pad; /* padding needed for arg area */ 
uint32 i; 
void INITRET (void); 
mask - disable(); 
if t (ssize « MINSTK) 
|| (priority <= 0) 
|| (((int32) (pid = newpid())) == (int32) SYSERR) 
|| ((saddr = (uint32 *)getstk(ssize)) == (uint32 *)SYSERR)) ( 


restore (mask); 
return SYSERR; 


prcount++; 
prptr = &proctab[pid]; 


/* Initialize process table entry for new process */ 


prptr->prstate = PR_SUSP; /* initial state is suspended 
prptr->prprio = priority; 

prptr->prstkptr = (char *)saddr; 

prptr->prstkbase = (char *)saddr; 

prptr->prstklen = ssize; 

prptr->prname [PNMLEN-1] = NULLCH; 


xy 


for (i=0 ; i«PNMLEN-1 && (prptr->prname[i]=name[i])!=NULLCH; i++) 


prptr->prparent = (pid32)getpid(); 
prptr-»prhasmsg - FALSE; 


/* Set up initial device descriptors for the shell 
prptr-»prdesc[0] - CONSOLE; /* stdin is CONSOLE device 
prptr-»prdesc[1] - CONSOLE; /* stdout is CONSOLE device 


prptr-»prdesc[2] - CONSOLE; /* stderr is CONSOLE device 


/* Initialize stack as if the process was called 


*/ 
x 
y 
ey 


ali 
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*saddr = STACKMAGIC; 

*--saddr = pid; 

*--saddr = (uint32)prptr->prstklen; 

*--saddr = (uint32)prptr->prstkbase - prptr->prstklen 
+ sizeof(int); 


if (nargs == 0) { /* compute padding */ 
pad = 4; 
} else if ((nargs%4) == 0) { /* pad for A0 - A3 Ey 
pad = 0; 
} else { 
pad = 4 - (nargs % 4); 
} 
for (i = 0; i < pad; i++) { /* pad stack by inserting zeroes*/ 
*--saddr = 0; 
) 
for (i = nargs; i > 0; i--) { /* reserve space for arguments  */ 
*--saddr = 0; 
} 
savargs = saddr; /* loc. of args on the stack */ 
/* Build the context record that ctxsw expects vy 
for (i = (CONTEXT_WORDS); i > 0; i--) { 
*--saddr = 0; 
} 
prptr->prstkptr = (char *)saddr; 
/* Address of process entry point */ 
saddr[(CONTEXT WORDS) - 1] = (uint32) funcaddr; 
/* Return address value * 
saddr[(CONTEXT WORDS) - 2] = (uint32) INITRET; 
/* Copy arguments intó activation record */ 
ap = (uint32 *)(&nargs + 1); /* machine dependent code to *y 
for (i = 0; i < nargs; i++) { /* copy args onto process stack */ 
*savargs++ = *apt+; 
} 
restore (mask); 
return pid; 
ij 
/A* ——— À—ÀÀ ÀÀ— a a Ss a a Se CY ee oe ee ee emm i ed ee E ei dms 
* newpid - Obtain a new (free) process ID 
ee ee eee 
*/ 


local pid32 newpid (void) 
{ 


uint32 i; /* iterate through all processes*/ 


static pid32 nextpid = 1; /* position in table to try or 
/* one beyond end of table 


/* Check all NPROC slots */ 


mf 
tf 
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for (i = 0; i < NPROC; i++) { 
nextpid %= NPROC; /* wrap around to beginning */ 
if (proctab[nextpid].prstate -- PR FREE) ( 
return nextpid++; 
) else ( 
nextpid++; 
} 
} 
return (pid32) SYSERR; 


/* userret.c - userret */ 


#include «xinu.h» 


/* j————————————————————————————— SP se owl eee 
* userret - Called when a process returns from the top-level function 
| NUN PROS AACHEN OR PARENT NERO IR III UPC VOCE oper ep mp MT 
*/ 

void userret (void) 

{ 

kill(getpid()); /* force process exit */ 
} 
create 函数 在 进程 状态 图 中 引入 了 一 次 初始 状态 转移 : 一 resched 


个 新 创建 的 进程 初始 时 处 于 挂 起 状态 。 图 6-3 说 明了 这 样 的 状 


6.13 ”其 他 进程 管理 函数 

另外 还 有 三 个 系统 调用 可 以 用 来 管理 进程 : getpid、 
getprio 和 chprio。 正 如 名 字 一 样 ，getpid 使 得 当前 进程 能 够 获 
得 它 的 进程 ID getprio 允许 调用 者 获得 任意 进程 的 调度 优先 
级 。 另 外 一 个 系统 调用 chprio 允许 一 个 进程 修改 任意 进程 的 优 
先 级 。 三 个 系统 调用 的 实现 都 简单 易 懂 。 例 如 ， 让 我 们 看 一 


suspend 






suspend 


下 getprio 系统 调用 的 代码 。 在 完成 参数 检查 之 后 ，getprio 从 — 图 6-3 ”进程 状态 图 ， 显 示 了 新 创建 
进程 表 中 提取 指定 进程 的 调度 优先 级 ， 并 且 将 优先 级 返回 给 的 进程 初始 化 为 挂 起 状态 


调用 者 。 


/* getprio.c - getprio */ 


#include <xinu.h> 


| —*———————ÉÁ————À 
* getprio - Return the scheduling priority of a process 
Me ees iur sor Ns es Esca th mic al dij corum dug GE des pu a dus Wl QU i e NI qu LT qd i cm us] [s I GN i Lh d e M cea 
žy 
syscall getprio( 
pid32 pid /* process ID “i 
) 
{ 
intmask mask; /* saved interrupt mask */ 
uint32 prio; /* priority to return #/ 


mask = disable(); 
if (isbadpid(pid)) { 
restore (mask); 
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return SYSERR; 
} 
prio = proctab[pid].prprio; 
restore (mask); 
return prio; 
) 
由 于 全 局 变量 currpid 包含 了 当前 正在 运行 的 进程 DD， 所 以 getpid 的 实现 代码 很 简单 : 


/* getpid.c - getpid */ 


#include <xinu.h> 


/[* —€——————————————————————————————————— 
* getpid - Return the ID of the currently executing process 
ss a i i ii ALT e ——/E( A a 
* 

pid32 getpid(void) 

£ 

return (currpid); 
} 


chprio 函数 可 以 修改 任何 进程 的 调度 优先 级 。 该 函数 的 代码 在 chprio. c 中。 


/* chprio.c - chprio */ 


#include <xinu.h> 


/* ————————————————————ÁÁ—— — Á——— — M Te” 
* chprio - Change the scheduling priority of a process 
入 
*/ 

prii6 chprio( 

pid32 pid, /* ID of process to change xf 
pril6 newprio /* new priority */ 
) 
( 
intmask mask; /* saved interrupt mask * 
struct procent *prptr; /* ptr to process’ table entry */ 
pri16 oldprio; /* priority to return x, 


mask - disable(); 
if (isbadpid(pid)) ( 
restore (mask); 
return (pri16) SYSERR; 
} 
prptr = &proctab[pid]; 
oldprio = prptr->prprio; 
prptr->prprio = newprio; 
restore (mask); 
return oldprio; 
) 
chprio 函数 在 修改 指定 进程 在 进程 表 中 的 优先 级 之 前 ， 首 先 检查 进程 ID 以 保证 该 进程 存在 。 在 练 


习 中 ， 你 将 会 看 到 这 段 实 现代 码 有 两 个 疏忽 之 处 。 


6.14 总 结 


为 了 扩展 对 并 发 执行 的 支持 ， 本 章 在 调度 器 和 上 下 文 切 换 的 层面 上 添加 了 一 层 进程 管理 。 新 的 层 
面包 括 持 起、 恢复 执行 创建 新 进程 和 杀 死 。 本 章 还 分 析 了 另外 三 个 函数 ， 它 们 分 别 是 获取 当前 进程 ID 
的 getpid 函数 、 获 取 任 意 进程 调度 优先 级 的 getprio 函数 以 及 修改 任意 进程 调度 优先 级 的 chprio 函数 。 
尽管 代码 很 简洁 ， 但 到 现在 为 止 ， 这 些 代 码 已 经 构成 了 一 个 基本 的 进程 管理 器 。 使 用 适当 的 初始 化 和 
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其 他 辅助 例 程 ， 这 个 基本 的 进程 管理 器 可 以 让 多 个 并 发 的 计算 任务 在 一 个 处 理 器 上 多 道 并 发 。 

create 函数 创建 一 个 新 进程 ， 并 将 进程 置 于 挂 起 状态 。create 函数 还 为 新 进程 分 配 栈 空间 并 将 一 些 
必需 的 数值 放 在 栈 和 进程 表 中 ， 从 而 使 得 上 下 文 切换 函数 ctxsw 能 够 切换 到 该 进程 并 开始 执行 。 栈 中 的 
上 下 文 信息 被 设置 成 一 个 伪 调用 的 形式 ， 就 好 像 该 进程 是 在 userret 函数 之 前 被 调用 的 一 样 。 当 进程 从 
顶层 函数 返回 时 ， 控 制 权 就 交 给 userret 函数 ， 该 函数 将 调用 kill 函数 来 终止 进程 。 


练习 

6.1 正如 本 章 所 述 ， 当 挂 起 的 进程 被 其 他 进程 通过 resume 唤醒 之 后 ， 它 的 优先 级 可 以 设置 为 指定 且 唯 一 
的 值 ， 从 而 可 以 知道 哪些 事件 触发 了 唤醒 操作 。 使 用 这 种 方法 来 创建 一 个 进程 并 挂 起 该 进程 ， 然 后 
判断 另外 两 个 进程 中 哪个 进程 首先 唤醒 了 它 。 

6.2 为 什么 create 创建 的 伪 调 用 在 进程 退出 之 后 的 返回 地 址 要 设置 为 userret 函数 而 不 直接 设置 为 kil 
函数 ? 

6.3 全 局 变量 prcount 表示 当前 活动 的 用 户 进程 数 。 请 仔细 考虑 Kill 中 的 代码 并 思考 prcount 所 表示 的 进程 
数 是 否 包 括 空 进程 ? 

6.4 正如 本 章 所 述 ，kill 在 最 后 一 个 进程 终止 之 前 调用 xdone。 修 改 整个 系统 使 得 空 进程 监控 用 户 进 程 的 
数量 并 且 在 所 有 进程 完成 之 后 调用 xdone。 

6.5 在 6.4 题 中 ， 新 的 实现 在 xdone 函数 上 附加 了 什么 当前 实现 中 没有 的 限制 ? 

6.6 在 某 些 硬件 体系 架构 上 ， 在 应 用 程序 进行 系统 调用 时 会 使 用 一 条 特殊 的 指令 。 调 查 这 样 的 架构 ， 并 
描述 一 个 系统 调用 是 如 何 传 递 到 对 应 的 操作 系统 函数 的 。 

6.7 create 操作 将 创建 的 进程 设置 为 挂 起 状态 而 不 是 运行 状态 ， 为 什么 这 么 做 ? 

6.8 resume 函数 在 调用 ready 之 前 ,将 被 唤醒 进程 的 优先 级 保存 在 一 个 局 部 变量 中 。 请 说 明 如 果 在 调用 
ready 之 后 再 引用 prptr—prprio, resume 函数 返回 的 优先 级 可 能 是 被 唤醒 进程 从 未 拥有 过 的 (即使 是 
在 被 唤醒 之 后 ) o 

6.9 在 函数 newpid 中 ,全 局 整 型 变量 nextproc 用 来 在 进程 表 中 寻找 一 个 空闲 的 表 项 。 从 之 前 停 下 来 的 地 
方 开始 搜索 空闲 表 项 避免 了 每 次 都 遍历 之 前 用 过 的 表 项 。 请 说 明 这 种 技术 在 散人 式 系统 上 是 否 有 
价值 。 

6.10 ”函数 chprio 有 两 个 设计 缺陷 。 第 一 个 缺陷 是 代码 并 不 确保 输入 的 新 优先 级 数值 是 一 个 正 整数 。 请 说 
明 如 果 一 个 进程 的 优先 级 被 设置 为 -1 会 怎么 样 。 

6.11 chprio 第 二 个 设计 缺陷 是 它 违 反 了 一 个 基本 的 设计 原则 。 请 识别 出 这 个 缺陷 ， 描 述 其 可 能 产生 的 后 
果 并 修复 它 。 
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一 一 俄罗斯 谚语 


7.1 引言 

前 面 的 章节 介绍 了 进程 管理 器 的 部 分 内 容 ， 包 括 进 程 调度 、 上 下 文 切换 和 创建 、 终 止 进程 。 本 章 
将 继续 探究 进程 管理 中 如 何 协调 和 同步 相互 独立 的 不 同 进程 。 在 本 章 中 ， 除 了 解释 进程 协同 的 出 发 点 
和 实现 之 外 ， 还 会 对 多 处 理 器 (多核 芯片 ) 上 的 协调 问题 做 相关 的 阐述 。 

第 8 章 通过 介绍 操作 系统 底层 的 消息 传递 机 制 ， 对 进程 管理 的 内 容 进 行 拓展 。 后 续 的 章节 则 介绍 
同步 机 制 在 输入 输出 中 的 应 用 。 


7.2 进程 同步 的 必要 性 

并 发 执行 的 进程 需要 相互 协作 来 实现 共享 全 局 资源 。 特 别 地 ， 操 作 系统 的 设计 者 必须 保证 在 任何 
时 候 只 有 一 个 进程 企图 改变 一 个 指定 变量 的 值 。 以 进程 表 为 例 ， 当 创建 一 个 新 进程 时 ， 需 要 在 进程 表 
中 为 之 分 配 空间 并 写 入 相应 的 值 。 如 果 两 个 进程 都 要 创建 新 进程 ， 系 统 就 必须 保证 在 某 一 时 间 只 能 有 
一 个 执行 create， 否 则 就 会 产生 错误 。 

第 6 章 展示 了 一 种 可 以 用 来 保证 一 个 进程 不 受 其 他 进程 影响 的 方法 ， 即 调用 一 个 禁止 中 断 函 数 ， 
这 样 也 可 以 避免 使 用 那些 调用 了 resched 的 函数 的 影响 。 像 suspend, resume, create 和 kill 这 些 系统 调 
用 都 使 用 了 这 种 方法 。 

当 进 程 需要 确保 不 受 外 界 影 响 的 时 候 ， 为 什么 不 使 用 上 述 同 样 的 解决 方案 呢 ? 原因 在 于 禁止 中 断 
对 整个 操作 系统 都 有 着 负面 影响 : 禁止 中 断 使 操作 系统 中 只 有 一 个 进程 在 执行 ， 其 他 所 有 活动 都 停止， 
而 且 还 限制 了 进程 的 行为 。 尤 为 重要 的 是 ， 在 中 断 禁 止 期 间 输 入 /输出 操作 无 法 执行 。 后 面 我 们 还 会 发 
现 禁止 中 断 太 久 会 导致 很 多 问题 〈 例 如 ， 在 中 断 禁 止 期 间 ， 如 果 网 络 不 断 有 数据 包 到 达 ， 那 么 网 络 接 
口 会 丢弃 这 些 数 据 包 ) 。 因 此 ， 我 们 需要 一 种 更 为 通用 的 协调 机 制 ， 使 得 在 不 长 时 间 禁 止 中 断 的 前 提 
下 ， 人 允许 进程 之 间 协 调 数据 项 的 使 用 ， 并 且 这 种 协调 不 会 影响 其 他 进程 ， 不 会 限制 其 他 进程 的 运行 。 
例如 ， 一 个 进程 能 够 在 对 某 一 个 大 数据 结构 进行 格式 化 和 打印 的 同时 禁止 其 他 进程 对 它 进行 修改 ， 同 
时 不 影响 那些 不 会 访问 这 个 数据 结构 的 进程 的 运行 。 这 种 机 制 必须 是 透明 的 : 程序 员 应 该 能 够 理解 进 
程 协调 的 结果 。 故 而 ， 我们 讨论 的 这 种 同步 机 制 必须 包括 以 下 内 容 : 

。 人 允许 一 部 分 进程 为 访问 某 一 资源 进行 竞争 。 

© 提供 一 种 策略 来 保证 竞争 的 公平 性 。 

第 一 点 确保 进程 协调 是 一 种 局 部 行为 : 只 阻塞 那些 为 了 同一 资源 而 竞争 的 进程 ， 使 其 等 待 ， 而 非 
禁止 所 有 中 断 。 操 作 系统 的 其 余部 分 均 可 不 受 影响 地 正常 运行 。 第 二 点 确保 如 果 有 天 个 进程 试图 访问 
某 一 资源 ， 则 最 终 这 天 个 进程 都 可 以 成 功 访问 〈 也 就 是 说 ， 没 有 进程 会 狐 死 ) 。 

在 第 2 章 中 ,我 们 已 经 介绍 了 解决 这 一 问题 的 基本 机 制 计数 信号 量 ， 并 给 出 了 进程 之 间 通 过 
信号 量 来 协调 的 例子 。 正 如 第 2 章 所 说 ， 信 号 量 非常 优雅 地 解决 了 两 个 问题 : 

° HF, 

e 生产 者 - 消费 者 交互 。 

互 斥 ”术语 互 斥 是 指 确保 一 系列 进程 中 同一 时 间 只 有 一 个 进程 运行 的 情况 。 不 仅仅 指 共享 数据 ， 
还 包括 共享 任意 的 资源 ， 例 如 共享 输入 输出 设备 的 情况 。 

生产 者 一 消费 者 交互 ”术语 生产 者 -消费 者 交互 是 指 进程 之 间 进 行 数据 项 交换 的 情况 。 其 最 简单 
的 形式 就 是 一 个 生成 数据 项 的 进程 作为 生产 者 ， 另 一 个 接收 数据 项 的 进程 作为 消费 者 。 更 复杂 的 情况 
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下 ,作为 生产 者 和 消费 者 的 进程 都 可 以 是 多 个 。 这 时 协调 的 关键 在 于 任何 生成 的 数据 项 都 只 能 被 一 个 
消费 者 所 接收 ( 即 没 有 数据 项 丢失 或 重复 接收 )。 

无 论 哪 种 形式 的 进程 协调 问题 都 在 操作 系统 中 广泛 存在 。 例 如 ， 考 虑 将 一 组 应 用 发 出 的 消息 显示 
在 控制 台 上 ， 则 控制 台 必须 协调 进程 确保 需要 显示 字符 到 达 的 速度 低 于 硬件 显示 的 速度 。 需 要 显示 的 
字符 存放 在 内 存 中 的 缓冲 区 里 ， 如 果 缓 冲 区 满 了 ， 则 发 出 消息 的 进程 必须 阻塞 等 待 直到 缓冲 区 可 用 ， 
而 如 果 缓 冲 区 为 空 ， 则 显示 器 停止 显示 消息 。 这 其 中 的 关键 在 于 当 消费 者 不 能 接收 数据 时 ， 生 产 者 必 
须 阻塞 等 待 ， 而 当 生 产 者 不 再 产生 数据 时 ， 消 费 者 也 同样 要 阻塞 等 待 。 


7. 3 ”计数 信号 量 的 概念 

解决 上 述 问题 的 计数 信号 量 机 制 有 着 相当 优雅 的 实现 。 从 概念 上 说 ,信号 量 s 由 一 个 整数 和 一 系 
列 阻塞 进程 构成 。 当 信号 量 创建 之 后 ， 进 程 对 信号 量 使 用 wait 和 signal 两 个 函数 。 当 一 个 进程 调用 wait 
函数 时 ,信号 量 的 值 减 1; 调用 signal 函数 时 ， 则 信和 号 量 的 值 加 1。 如 果 一 个 进程 调用 wait 函数 时 ， 信 
号 量 的 值 变 为 负 值 ， 则 这 个 进程 将 会 阻塞 ， 并 被 放 到 信号 量 的 阻塞 进程 集合 中 。 从 进程 的 角度 来 讲 ， 
对 wait 的 调用 和 暂时 不 会 返回 。 阻 塞 在 信号 量 上 的 进程 具有 当 有 其 他 进程 调用 signal 函数 增加 了 信号 量 
的 值 时 才能 继续 执行 。 也 就 是 说 ， 当 调用 signal 函数 时 ， 有 进程 被 阻塞 等 待 信息 量 ， 则 阻塞 进程 之 一 
变 为 就 绪 状 态 并 执行 。 当 然 ， 程 序 员 在 使 用 信号 量 的 时 候 必 须 注 意 : 如 果 没 有 进程 调用 signal, ， 则 阻塞 
的 进程 会 一 直 等 待 下 去 。 


7.4 ERICE 
进程 在 等 待 信号 量 时 应 该 做 什么 呢 ” 当 进程 对 信号 量 的 值 减 1 后， 似乎 就 在 反复 验证 信号 量 的 值 
直到 其 为 正 值 。 对 于 单 CPU 的 系统 来 说 ， 这 种 忙 等 待 是 不 可 接受 的 ， 因 为 如 果 这 样 就 占用 了 其 他 进程 
的 CPU 资源 ， 而 如 果 其 他 进程 都 无 法 获得 CPU 资源 ， 那 么 就 没有 进程 可 以 调用 signal 函数 来 终止 前 一 
个 进程 的 等 待 状态 。 因 此 ， 操 作 系统 必须 避免 忙 等 待 。 在 实现 信号 量 时 ， 我 们 应 该 遵循 一 个 非常 重要 
的 原则 : i 
当 一 个 进程 等 待 信 号 量 时 ， 该 进程 不 应 该 执行 任何 指令 。 


7.5 信号 量 策略 和 进程 选择 

为 了 在 实现 信号 量 时 避免 忙 等 待 ， 操 作 系 统 为 每 个 信号 量 关联 了 一 个 进程 链表 。 只 有 当前 进程 可 
以 选择 等 待 信号 量 。 当 一 个 进程 等 待 信号 量 * 时 ， 系 统 将 信号 量 s 对 应 的 值 减 1， 如 果 变 为 负 值 ， 则 该 
进程 阻塞 。 操 作 系 统 将 该 进程 放 人 信和 号 量 关联 的 进程 链表 中 ， 将 其 状态 改 为 非 当 前 进程 ， 然 后 调用 re- 
sched 函数 让 其 他 进程 运行 。 

接着 ， 当 有 进程 在 信号 量 s 上 调用 signal 函数 时 ，s 对 应 的 值 相应 增加 。 同 时 ，signal 函数 检查 s 关 
联 的 进程 链表 ， 如 果 链 表 非 空 〈 即 至 少 有 一 个 进程 等 待 该 信号 量 ) ， 则 signal 函数 就 从 链表 中 取出 一 个 
进程 ， 并 放 回 到 就 绪 进 程 链表 中 。 

问题 随 之 而 来 : 如 果 多 个 进程 在 等 待 ，signal 函数 会 选择 哪 一 个 进程 ”常见 的 策略 有 以 下 几 种 : 

。 最 高 调度 优先 级 策略 。 

e 最 长 等 待 时 间 策 略 。 

© 随机 策略 。 

© 先 到 先 服 务 策略 。 

尽管 看 起 来 很 合理 ， 选 择 最 高 优先 级 的 进程 违反 了 基本 原则 之 一 : 竞争 的 公平 性 。 考 虑 一 些 低 优 
先 级 的 进程 和 一 些 高 优先 级 的 进程 共享 某 一 资源 ， 每 个 进程 重复 地 使 用 该 共享 资源 ， 如 果 信 和 号 量 系统 
一 直选 择 高 优先 级 进程 ， 则 高 优先 级 进程 会 一 直 获 得 CPU 资源 ， 低 优先 级 进程 会 一 直 阻 塞 下 去 。 

选择 最 长 等 待 时 间 的 进程 可 能 会 导致 优先 级 反 转 ， 即 高 优先 级 进程 会 阻塞 而 低 优 先 级 进程 能 够 执 
行 。 后 面 的 练习 中 还 提 到 了 这 种 策略 会 导致 的 另 一 个 同步 问题 。 避 免 这 些 问 题 的 方法 之 一 是 在 等 待 的 
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进程 中 随机 选择 一 个 运行 。 随 机 策略 的 主要 缺点 在 于 其 消耗 的 资源 ， 例 如 随机 数 的 生成 需要 执行 乘法 
运算 ， 而 这 需要 占用 不 少 计算 资源 。 
综 上 所 述 ， 很 多 实现 中 采用 了 先 到 先 服务 的 策略 ， 即 操作 系统 使 用 一 个 队列 来 存储 等 待 给 定 信号 
量 的 进程 。 当 一 个 进程 调用 wait 函数 时 ， 将 它 加 到 该 队列 的 末尾 并 阻塞 ; 而 沼 有 进程 调用 signal 函数 
时 ， 队 列 头 部 的 进程 将 会 结束 阻塞 并 开始 运行 。 最 终 策略 为 : 
信号 量 进程 选择 策略 : 如 果 一 个 或 多 个 进程 等 待 信号 量 s， 当 有 进程 调用 signal 函数 时 ， 
到 达 时 间 最 久 的 进程 将 从 阻塞 变 为 就 绪 状 态 。 


7.6 等 待 状态 

当 一 个 进程 等 待 信号 量 时 ， 我们 应 该 为 其 设置 
怎样 的 状态 呢 ? 由 于 进程 既 没 有 使 用 CPU 又 不 具备 
运行 的 条 件 ， 所 以 我 们 不 能 将 其 设置 为 当前 状态 或 
者 就 绪 状 态 。 而 第 6 章 中 介绍 的 挂 起 状态 在 这 里 也 不 
能 使 用 ， 因 为 使 进程 进入 或 者 离开 挂 起 状态 的 sus- 
pend 和 resume 函数 都 与 信号 量 无 关 。 更 为 重要 的 是 ， 
等 待 信号 量 的 进程 都 在 一 个 链表 中 ， 而 挂 起 的 进程 
显然 不 在 其 中 ， 这 个 差别 在 调用 kill 函数 终止 某 一 进 
程 时 至 关 重 要 。 由 于 已 有 的 状态 无 法 精确 地 概括 等 
待 信号 量 的 进程 的 状态 ， 所 以 我 们 必须 使 用 一 个 新 
的 状态 一 一 等 待 ， 在 代码 中 用 PR. WAIT 的 符号 来 表 
示 。 图 7-1 是 扩展 的 进程 状态 转换 图 。 7-1 包括 等 待 状态 的 状态 转换 图 


7.7 信号 量 数据 结构 


在 示例 操作 系统 中 ， 信 号 量 信息 存储 在 一 个 全 局 信号 量 表 semtab 中 ， 其 中 的 每 一 条 表 项 都 对 应 一 
个 信号 量 ， 包 含 一 个 整数 值 和 一 个 用 来 存放 等 待 进程 的 队列 耳 。 表 项 由 结构 体 sentry 来 定义 ， 具体 细 
节 在 semaphore. h 文件 中 。 


/* semaphore.h - isbadsem */ 





signal 








suspend 





suspend 


#ifndef NSEM 
#define NSEM 45 /* number of semaphores, if not defined */ 
#endif 


/* Semaphore state definitions */ 


#define S_FREE 0 /* semaphore table entry is available */ 
#define S USED 1 /* semaphore table entry is in use */ 


/* Semaphore table entry */ 
struct sentry { 


byte sstate; /* whether entry is S_FREE or S_USED x 
int32 scount; /* count for the semaphore *J 
qidi6 Squeue; /* queue of processes that are waiting  */ 

Z* on the semaphore *7 


3; 
extern struct sentry semtab[]; 


#define isbadsem(s) ((int32)(s) < 0 || (s) >= NSEM) 
在 结构 体 sentry 中 ，scount 字段 为 信号 量 的 当前 整数 值 ， 等 待 该 信号 量 的 进程 链表 存储 在 队列 中 ， 
squeue 字段 给 出 了 指定 信号 量 的 队列 头 部 的 地 址 ， 状 态 字段 sstate 则 表示 当前 记录 是 否 已 使 用 (已 分 
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配 空间 ) 或 为 空 〈 未 分 配 空间 ) 。 
在 整个 操作 系统 中 ， 信 号 量 均 通 过 一 个 整数 ID 来 识别 。 信 和 号 量 的 ID 同样 是 为 了 提高 查询 的 效 
率 一 一 信号 量 表 由 一 个 数组 来 实现 ， 每 个 信号 量 的 ID 就 是 其 在 数组 中 的 索引 。 总 的 来 说 : 
信号 量 由 其 在 全 局 信号 量 表 semtab 中 的 索引 来 进行 识别 。 


7.8 系统 调用 wait 

信和 号 量 的 两 个 主要 操作 为 wait 和 signal, wait 函数 减少 信号 量 的 值 。 当 信和 号 量 的 值 为 非 负 时 ，wait 
函数 直接 返回 。 本 质 上 ， 对 非 负 值 的 信和 号 量 调用 wait 函数 的 进程 自愿 交 出 其 对 CPU 的 控制 权 。 也 就 是 
Bi, wait 函数 将 调用 自己 的 进程 放 入 信号 量 的 等 待 队 列 中 ， 并 将 其 状态 改 为 PR_WAIT， 然 后 调用 re- 
sched 函数 切换 到 另 一 个 就 绪 的 进程 。 前 面 讲 过 ， 维 护 等 待 队列 的 策略 为 先进 先 出 ， 即 新 到 达 的 进程 放 
KBB. wait. c 文件 的 代码 如 下 。 


/* wait.c - wait */ 


#include <xinu.h> 


/* ea ener aum Re mre ee Ne re VI e MES Ni into n ii ME MS QUE Ml ino c qum 
* wait - Cause current process to wait on a semaphore 
lee. = ———-———— ——————————— 
*/ 
syscall wait ( 
sid32 sem /* semaphore on which to wait */ 
) 
( 
intmask mask; /* saved interrupt mask *y 
struct procent *prptr; /* ptr to process’ table entry */ 
struct sentry *semptr; /* ptr to sempahore table entry */ 
mask = disable(); 
if (isbadsem(sem)) { 
restore (mask) ; 
return SYSERR; 
} 
semptr = &semtab[sem]; 
if (semptr->sstate == S_FREE) { 
restore (mask) ; 
return SYSERR; 
} 
if (--(semptr->scount) < 0) { /* if caller must block */ 
prptr = &proctab[currpid]; 
prptr->prstate = PR_WAIT; /* set state to waiting */ 
prptr->prsem = sem; /* record semaphore ID */ 
enqueue (currpid, semptr->squeue) ; /* enqueue on semaphore */ 
resched () ; g= and reschedule */ 
} 
restore(mask); 
return OK; 
) 


一 个 进程 一 旦 进入 信号 量 的 等 待 队 列 便 保 持 在 等 待 状 态 〈 不 具备 执行 的 条 件 ) 直到 该 进程 到 达 队 
列 头 部 且 有 另 一 个 进程 调用 signal 为 止 。 当 signal 调用 将 一 个 进程 放 回 到 就 绪 链表 中 时 ， 该 进程 就 具备 
了 使 用 CPU 的 条 件 ， 并 最 终 继续 执行 。 从 等 待 进程 的 角度 来 看 ， 对 ctxsw 的 调用 会 变 为 对 resched 的 调 
用 ， 对 resched 的 调用 会 变 为 对 wait 的 调用 ， 而 对 wait 的 调用 则 会 最 终 回 到 其 调用 前 的 状态 。 
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7.9 系统 调用 signal 


signal 函数 接受 一 个 信号 量 的 ID 作为 参数 ， 增 加 该 信号 量 的 值 ， 如 果 有 进程 等 待 该 信号 量 ， 则 将 
等 待 队列 中 的 第 一 个 进程 置 为 就 绪 状 态 。 为 什么 signal 会 在 信号 量 值 为 负 的 时 候 将 一 个 进程 置 为 就 绪 
状态 ?为 什么 wait 并 不 总 是 将 调用 自己 的 进程 放 入 信和 号 量 的 等 待 队 列 中 ?” 这 些 看 起 来 难以 理解 ， 其 实 
原因 都 很 容易 理解 ， 并 且 很 容易 实现 。 不 管 信号 量 的 值 为 多 少 ，wait 和 signal 都 遵循 下 面 的 不 变 式 : 

信号 量 不 变 式 : 信号 量 值 非 负 ， 意 味 着 其 等 待 队列 为 空 ; 信号 量 值 为 -= W， 则 等 待 队列 

中 有 人 个 等 待 的 进程 。 

本 质 上 ， 信 和 号 量 值 为 N 意味 着 进程 在 该 信号 量 上 调用 wait 函数 N 次 都 不 会 发 生 阻塞 , 第 N+1 次 
调用 时 才 会 阻塞 。 由 于 wait 和 signal 都 改变 信号 量 的 值 ， 所 以 这 两 个 函数 都 必须 调整 等 待 队列 的 长 度 
来 符合 上 面 的 不 变 式 。 当 wait 减少 信号 量 的 值 使 其 变 为 负 值 时 ， 当 前 进程 就 会 加 入 到 等 待 队 列 中 ; 而 
signal 则 增加 信号 量 的 值 ， 并 在 等 待 队 列 非 空 时 将 队 首 的 进程 取出 。 


/* signal.c - signal */ 


#include <xinu.h> 


/* ds E a E ey MN dw My CN lu ed i ee ee be ds QU 
* signal - Signal a semaphore, releasing a process if one is waiting 
M uc eke ee aeu Rae a te a eS Sa SO CE E eS Er Rn di ME UU m E acie id) a HMM pd 
Kf 
syscall signal ( 
sid32 sem /* id of semaphore to signal xy 
) 
{ 
intmask mask; /* saved interrupt mask =f 
struct sentry *semptr; /* ptr to sempahore table entry */ 


mask = disable(); 
if (isbadsem(sem)) { 
restore (mask); 
return SYSERR; 
) 
semptr= &semtab[sem]; 
if (semptr->sstate == S FREE) ( 
restore (mask); 
return SYSERR; 
} 
if ((semptr->scount++) < 0) { /* release a waiting process */ 
ready (dequeue (semptr->squeue) , RESCHED YES); 
} 
restore (mask); 
return OK; 


) 


7.10 ”静态 和 动态 信号 量 分 配 


操作 系统 设计 者 需要 从 下 面 两 种 方法 中 选择 一 种 来 进行 信号 量 的 分 配 : 

。 MSNM: 程序 员 在 编译 时 定义 一 个 固定 的 信号 量 集合 ， 这 个 集合 在 系统 运行 的 时 候 不 变 。 

© 动态 分 配 : 操作 系统 包含 按 需 创建 和 销毁 信号 量 的 函数 。 

静态 分 配 的 优点 在 于 节约 存储 空间 ,减少 CPU 的 负担 一 一 系统 只 需 保留 信号 量 所 需 的 内 存 ， 无 需 
创建 和 销毁 信号 量 的 函数 。 因 此 小 型 的 符 人 式 系统 采用 静态 分 配 的 方式 。 

动态 分 配 的 主要 优点 在 于 其 能 够 在 运行 时 适应 新 的 用 途 。 例 如 ， 动 态 分 配 的 方案 允许 用 户 启动 一 
个 应 用 程序 来 创建 一 个 信号 量 ， 也 可 以 关闭 这 个 应 用 程序 然后 启动 另 一 个 。 所 以 大 型 的 戏 和 人 式 系 统 和 
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大 部 分 大 型 操作 系统 都 支持 包括 信号 量 在 内 的 资源 动态 分 配 。7. 11 节 中 我 们 会 看 到 动态 分 配 机 制 也 不 
需要 很 多 额外 的 代码 来 实现 。 


7. 11 动态 信号 量 的 实现 示例 

Xinu 实现 了 部 分 形式 的 动态 分 配 : 进程 可 以 动态 创建 信号 量 ， 某 一 进程 可 以 创建 多 个 信号 量 ， 但 
信和 号 量 的 总 数 不 超过 预定 义 的 上 限 。 另 外 ， 为 了 最 小 化 分 配 的 开销 ， 操 作 系 统 在 启动 时 就 为 每 一 个 信 
号 量 预 分 配 了 一 个 队列 。 所 以 当 进 程 创建 信号 量 时 只 需要 做 很 少 的 事情 。 

系统 调用 semereate 和 semdelete 分 别处 理 信 号 量 的 动态 分 配 和 回收 。semcreate 接收 信号 量 的 初始 
值 为 参数 ,创建 一 个 信号 量 并 把 初始 值 赋 给 它 ， 然 后 返回 该 信号 量 的 卫 。 为 了 符合 信和 号 量 不 变 式 ， 这 
里 的 初始 值 必 须 为 非 负 值 。 因 此 ，semcreate 首先 检查 参数 是 否 合法 。 如 果 和 参数 合法 ，semcreate 调用 
newsem 遍历 信和 号 量 表 semtab 中 所 有 NSEM 条 记录 ， 找 到 一 条 未 使 用 的 记录 并 设置 初始 值 。 如 果 没 有 可 
用 的 记录 ， 则 newsem 返回 SYSERR; 否则 ，newsem 将 找到 的 记录 的 状态 置 为 S_USED 并 返回 其 在 表 中 
的 索引 。 

一 旦 信号 量 表 中 的 表 项 已 经 分 配 好 ，semcreate 就 只 需要 设置 初始 值 并 返回 信号 量 的 索引 给 调用 
者 。 用 来 存储 等 待 进程 队列 的 头 、 尾 都 已 经 在 操作 系统 启动 时 分 配 好 了 。semcreate. c 文件 中 包含 了 ne- 
wsem 和 semcreate 的 代码 。 需 要 注意 的 是 ， 代 码 中 使 用 了 静态 的 索引 变量 nextsem 来 优化 对 信号 量 表 的 
查找 〈 使 查找 可 以 从 上 一 次 查找 结束 的 地 方 开始 ) 。 


/* semcreate.c - semcreate, newsem */ 
#include <xinu.h> 


local sid32 newsem (void); 


/* ———————————————————————————— 
* gemcreate - create a new semaphore and return the ID to the caller 
| ———————————————— ————————— ———————— 
ay 
sid32 semcreate ( 
int32 count /* initial semaphore count ey 
) 
{ 
intmask mask; /* saved interrupt mask sf 
sid32 sem; /* semaphore ID to return *y 
mask - disable(); 
if (count < 0 || ((sem=newsem())==SYSERR)) { 
restore (mask); 
return SYSERR; 
} 
semtab[sem].scount = count; /* initialize table entry La 
restore (mask); 
return sem; 
} 
/* E————^——————————————————————————————w!!0EOÜO0€0e0une0€0Ü€————————A————— s 
* newsem - allocate an unused semaphore and return its index 
IERI SNO IO NEI OI 
* 
local sid32 newsem (void) 
{ 


static sid32 nextsem = 0; /* next semaphore index to try */ 
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sid32 sem; /* semaphore ID to return */ 
int32 i; /* iterate through # entries */ 


for (i20 ; i<NSEM ; i++) ( 
sem = nextsem++; 
if (nextsem »- NSEM) 
nextsem - 0; 
if (semtab[sem].sstate -- S FREE) ( 
semtab[sem].sstate - S USED; 
return sem; 


) 
return SYSERR; 
) 


7.12 信号 量 删除 

semdelete 与 semcreate 的 行为 相反 ， 它 以 信号 量 的 索引 为 参数 ， 释 放 其 在 信号 量 表 中 的 表 项 资源 供 
后 续 使 用 。 回 收 信和 号 量 分 为 三 个 步骤 : 1) semdelete 验证 参数 是 否 为 合法 的 信号 量 ID ， 参 数 对 应 的 记 
录 是 否 为 已 使 用 状态 ; 2) semdelete 将 记录 的 状态 置 为 S_FREE， 表 示 该 记录 可 以 重用 ; 3) semdelete 
遍历 等 待 进程 的 队列 ， 将 其 中 的 每 个 进程 都 置 为 就 绪 状 态 。semdelete. c 文件 的 代码 如 下 : 


/* semdelete.c - semdelete */ 


#include <xinu.h> 


/*  ———————— — — a —————Ó—''——POPUN S Ó ÀP —I—"— n 
* semdelete -- Delete a semaphore by releasing its table entry 
| E———————————————————————————————————— 
LA 
Syscall semdelete( 
sid32 sem /* ID of semaphore to delete wy 
) 
{ 
intmask mask; /* saved interrupt mask = 
struct sentry *semptr; /* ptr to semaphore table entry */ 


mask - disable(); 

if (isbadsem(sem)) ( 
restore (mask); 
return SYSERR; 


semptr - &semtab[sem]; 

if (semptr->sstate == S FREE) ( 
restore (mask); 
return SYSERR; 

) 

semptr-»sstate - S FREE; 


while (semptr->scount++ < 0) ( /* free all waiting processes X 
ready(getfirst(semptr-»squeue), RESCHED NO); 

) 

resched(); 

restore (mask); 

return OK; 


) 
如 果 信 号 量 回收 后 等 待 队 列 中 还 有 进程 ， 操 作 系 统 就 必须 对 每 个 进程 进行 处 理 。 在 示例 实现 中 ， 
semdelete 将 等 待 队列 中 的 所 有 进程 都 置 为 就 绪 状 态 ， 就 像 有 进程 调用 signal 一 样 允 许 这 些 进 程 继续 运 
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行 。 这 种 实现 只 是 所 有 策略 中 的 一 种 。 例 如 ， 有 些 操作 系统 认定 如 果 仍 有 进程 等 待 指定 的 信号 量 ， 那 
么 回收 这 一 信号 量 就 会 产生 错误 。 我 们 会 在 后 面 的 练习 中 讨论 其 他 策略 。 

需要 注意 的 是 ， 上 面 将 等 待 进程 置 为 就 绪 的 代码 并 没有 在 进程 放 和 就绪 链表 后 直接 重新 进行 调度 。 
相反 ， 每 一 个 调用 ready 的 操作 都 注 明 了 RESCHED_NO。 当 所 有 等 待 进程 都 移 人 就 绪 链表 之 后 ， 代 码 
才 显 式 地 调用 resched 来 重新 建立 调度 不 变 式 。 


7. 13 ”信号 量 重 置 
有 时 候 重 置 一 个 信和 号 量 的 数量 很 方便 ， 不 会 带 来 删除 一 个 旧 信 号 量 和 申请 一 个 新 信号 量 的 开销 。 
系统 调用 semreset 重 置 了 一 个 信号 量 的 数量 ， 如 下 面 的 文件 semreset. c 所 示 。 


/* semreset.c - semreset */ 


#include <xinu.h> 


/* mE-—--—-—-————————n— ———À—————— P (A er Ds 
* semreset -- reset a semaphore's count and release waiting processes 
| -——————— À———————————————————— ———À rara aaa 
"y 

syscall semreset ( 

sid32 sem, /* ID of semaphore to reset #7 
int32 count /* new count (must be »- 0) */ 
) 
{ 
intmask mask; /* saved interrupt mask x 
struct sentry *semptr; /* ptr to semaphore table entry */ 
qidi6 | semqueue; : /* semaphore’s process queue ID */ 
pid32 pid; /* ID of a waiting process ay 
mask = disable(); 
if (count < 0 || isbadsem(sem) || semtab[sem].sstate==S_FREE) { 
restore (mask) ; 
return SYSERR; 
} 
semptr = &semtab[sem] ; 
semqueue = semptr->squeue; /* free any waiting processes */ 
while ((pid=getfirst(semqueue)) != EMPTY) 
ready (pid, RESCHED_NO) ; 
semptr->scount = count; /* reset count as specified */ 
resched(); 
restore (mask); 
return (OK); 
} 


semreset 必须 保持 信号 量 不 变 式 。 通 用 目标 的 解决 方案 允许 调用 者 定义 任意 的 信号 量 数量 ， 但 是 
我 们 的 实现 并 没有 这 人 么 做 ， 而 是 采用 了 一 个 要 求 新 的 数量 为 非 负 的 简化 方案 。 这 样 做 的 结果 是 ， 一 旦 
信号 量 的 数量 改变 ， 等 待 进程 的 队列 将 为 空 。 和 semdelete 一 样 ，semreset 必须 确定 已 经 没有 进程 等 待 
这 个 信号 量 了 。 因 此 ， 在 检查 了 其 变量 并 且 验 证 信号 量 存 在 后 ，semreset 迭代 等 待 进程 的 链表 ， 从 这 个 
信号 量 队列 上 移 除 每 个 进程 ， 并 让 这 个 进程 准备 执行 。 一 旦 所 有 的 等 待 进程 都 被 删除 ，semreset 就 分 配 
新 的 值 给 信号 量 ， 重新 进行 调度 (在 等 待 进程 有 更 高 优先 级 的 情况 下 ) ， 并 返回 给 它 的 调用 者 。 


7.14 多 核 处 理 器 之 间 的 协调 


以 上 描述 的 信号 量 系 统 能 够 在 一 个 单 核 计算 机 上 良好 地 运行 。 但 是 , 许多 现代 的 处 理 器 芯片 是 多 
核 的 。 一 个 核 常常 用 来 运行 操作 系统 的 功能 ， 而 其 他 核 用 来 执行 用 户 应 用 程序 。 在 这 样 的 系统 里 ， 仅 
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仅 使 用 操作 系统 提供 的 信号 量 是 不 够 的 。 欲 知 为 何 是 这 样 ， 不 妨 考虑 在 第 二 个 核 上 运行 这 样 一 个 应 用 
程序 会 发 生 些 什 么 ， 这 个 应 用 程序 需要 独占 地 访问 某 一 块 特定 内 存 。 此 应 用 进程 调用 wait， 并 将 请 求 
发 送 到 核 1 上 的 操作 系统 。 核 2 必须 中 断 核 1 来 完成 请 求 。 此 外 ， 当 运行 操作 系统 函数 时 ， 核 ! 已 经 
禁止 中 断 ， 这 使 信号 量 无 法 使 用 。 

有 些 多 处 理 器 系统 提供 称 为 旋 锁 (spin lock) 的 硬件 原 语 ， 它 允许 多 个 处 理 器 来 竞争 互 斥 访问 。 
硬件 定义 了 一 系列 数量 为 天 的 旋 锁 (天 应 该 小 于 1024) 。 理 论 上 ， 每 个 旋 锁 都 是 一 个 单独 的 位 ， 并 且 
都 初始 化 为 0。 每 个 处 理 器 包括 一 个 称 为 test-and-set 的 特定 指令 ， 它 表现 为 两 个 原子 指令 : 设置 旋 锁 
为 1 并 返回 在 这 个 操作 前 的 旋 锁 值 。 硬 件 的 原子 性 保证 表明 ， 如 果 两 个 或 者 更 多 的 处 理 器 试图 同时 设 
置 一 个 给 定 的 旋 锁 ， 那 么 其 中 一 个 会 收 到 先前 的 值 0， 其 他 的 会 收 到 1。 一 旦 完成 ， 获 得 锁 的 处 理 器 设 
FECE 0, 来 允许 其 他 处 理 器 获得 该 锁 。 

下 面 讲 解 旋 锁 的 工作 原理 。 假 设 两 个 处 理 器 需要 独占 地 访问 一 块 共享 数据 项 ， 并 且 在 使 用 旋 锁 5。 
当 一 个 处 理 器 想 要 互 斥 地 获得 访问 时 ， 这 个 处 理 器 执行 下 面 的 循环 ”: 

while (test and set(5)) { 





} 

这 个 循环 重复 使 用 test- and- set 指令 来 设置 旋 锁 5。 如 果 这 个 锁 在 指令 执行 前 设置 ， 这 个 指令 将 返回 
1， 并 且 这 个 循环 会 继续 下 去 。 如 果 在 指令 执行 前 这 个 锁 没 有 被 设置 ， 硬 件 返回 0， 循 环 终止 。 如 
果 多 个 处 理 器 试图 同时 设置 旋 锁 5， 这 个 硬件 保证 只 允许 一 个 能 访问 。 因 此 ，test- and- set 类 似 于 
wait 指令 。 

一 旦 一 个 处 理 器 使 用 完 共享 数据 ， 这 个 进程 就 执行 一 条 清除 旋 锁 的 指令 : 

clear (5); 

在 一 个 没有 旋 锁 硬件 的 多 处 理 絮 机 吕 上 ， 厂 商会 让 机 絮 包 含 生成 旋 锁 的 指令 。 例 如 ，Intel 多 核 处 
理 器 依赖 于 内 存 中 的 原子 compare-and-swap 指令 。 如 果 多 个 核 试 图 同时 执行 这 个 指令 ， 那 么 其 中 一 个 
会 成 功 ， 其 他 的 会 失败 。 程 序 员 能 够 使 用 这 些 指令 来 建立 等 价 的 旋 锁 。 

因为 直到 访问 被 允许 ， 处 理 器 会 阻塞 在 一 个 循环 中 ， 所 以 看 起 来 旋 锁 似乎 显得 浪费 。 但 是 ， 当 两 
个 处 理 器 同时 竞争 一 个 旋 锁 的 可 能 性 很 低 时 ， 这 个 机 制 就 比 系统 调用 更 有 效 。 因 此 ， 程 序 员 应 当 注意 
何 时 使 用 旋 锁 ， 何 时 使 用 系统 调用 。 





7.15 观点 


计数 信号 量 的 概念 很 重要 ， 主 要 有 两 个 原因 。 第 一 ， 它 提供 了 一 个 强大 的 机 制 ， 能 够 用 来 控制 互 
斥 和 生产 者 - 消费 者 同步 ， 而 它们 是 进程 协调 的 两 个 主要 范式 。 第 二 ， 它 的 实现 相当 紧凑 并 且 足 人 够 高 
效 。 回 顾 函 数 wait 和 signal, ， 我 们 可 以 发 现 它们 正 是 得 益 于 计数 信号 量 只 占用 了 很 小 空间 。 如 果 移 除 用 
来 测试 参数 的 代码 和 返回 结果 ， 那 么 就 只 剩 下 了 寥寥 数 行 代码 。 和 我 们 检测 其 他 抽象 概念 的 实现 时 一 
样 ， 以 下 这 点 变 得 越 来 越 显著 : 尽管 它们 很 重要 ， 但 实现 计数 信号 量 只 需要 极 少 的 代码 。 


7.16 总 结 


禁止 中 断 会 阻止 除了 当前 进程 以 外 的 所 有 行为 。 但 操作 系统 并 没有 这 么 做 ， 而 是 提供 了 同步 原 语 
来 允许 进程 的 子 集 在 不 影响 其 他 进程 的 情况 下 进行 协作 。 其 中 计数 信号 量 允许 进程 在 不 使 用 忙 等 待 的 
情况 下 进行 协作 。 每 个 信号 量 包 括 一 个 整数 值 加 上 一 个 进程 队列 。 这 个 信号 量 依赖 于 一 个 定义 为 非 负 
BN 的 不 变量 ， 它 表示 这 个 队列 包括 N 个 进程 。 

signal 和 wait 这 两 个 基本 原 语 允许 调用 者 增加 或 者 减少 信号 量 值 。 如 果 wait 调用 使 这 个 信号 量 值 为 
负 ， 调 用 进程 就 会 被 设置 为 等 待 状态 ， 并且 CPU 让 男 一 个 进程 执行 。 本 质 上 ， 一 个 等 待 某 个 信号 量 的 
进程 会 自行 让 自己 加 入 到 等 待 这 个 信号 量 的 队列 中 去 ， 并 且 调 用 resched 来 允许 其 他 进程 执行 。 

静态 或 者 动态 分 配 能 够 用 于 信号 量 。 在 示例 代码 里 ，semcreate 和 semdelete 函数 用 来 允许 动态 分 








O 由 于 使 用 到 了 硬件 指令 ，test-and-set 的 代码 经 常 使 用 汇编 来 编写 。 这 里 为 清楚 起 见 使 用 了 伪 代 码 。 
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配 。 如 果 进 程 等 待 时 一 个 信号 量 被 释放 ， 那 么 这 些 进程 应 当 被 处 理 。 
多 处 理 器 使 用 称 为 旋 锁 的 互 斥 机 制 。 尽 管 需要 一 个 处 理 器 重复 测试 是 否 能 够 访问 ， 但 是 相 比 于 一 
个 处 理 器 中 断 另 一 个 处 理 器 来 进行 系统 调用 的 方法 ， 自 旋 锁 还 是 更 有 效 的 。 


练习 

7.1 本 章 表明 如 果 有 进程 仍然 在 排队 等 待 信号 量 ， 有 些 操作 系统 就 认为 信号 量 的 删除 会 出 错 。 重 写 sem- 
delete 使 得 删除 一 个 忙 信号 量 时 返回 SYSERR 。 

7.2 考虑 用 延期 作为 本 章 中 所 示 的 信号 量 删除 机 制 的 一 种 替代 。 也 就 是 ， 重 写 semdelete， 使 得 在 所 有 进 
程 都 执行 signal 前 ， 用 一 个 延期 状态 蔡 代 一 个 删除 的 信号 量 。 修 改 signal， 使 得 当 最 后 等 待 的 进程 从 
队列 中 移 除 的 时 候 ， 才 释放 信和 号 量 表 表 项 。 

7.3 在 前 面 的 练习 中 ， 延 迟 删除 是 否 有 一 些 出 乎 意料 的 副作用 呢 ? 尝试 解释 之 。 

7.4 作为 活动 信号 量 延 迟 删除 的 进一步 的 替代 ， 修 改 wait， 使 得 当 调 用 进程 等 待 时 ， 如 果 信 和 号 量 被 删除 ， 
则 返回 一 个 DELETED 值 。( 为 DELETED 选择 一 个 不 同 于 SYSERR 和 OK 的 值 。) 一 个 进程 如 何 决定 
它 等 待 的 信号 量 是 否 被 删除 了 呢 ? 注意 : 高 优先 级 的 进程 能 够 在 任意 时 刻 执行 。 因 此 ， 低 优先 级 的 
进程 准备 就 绪 后 ， 高 优先 级 的 进程 能 够 获得 CPU， 并 产生 一 个 新 的 信号 量 ， 在 低 优先 级 的 进程 完成 
wait 操作 前 ， 高 优先 级 进程 重新 使 用 信号 量 表 表 项 。 提 示 : 考虑 增加 一 个 顺序 字段 到 信号 量 表 表 
项 中 。 

7.5 不 是 定位 一 个 中 心 信号 量 表 ， 而 是 安排 某 个 进程 按 需 定位 信号 量 表 项 的 空间 ， 并 使 用 一 个 表 项 的 地 
址 作为 信号 量 ID。 比 较 示 例 代码 中 中 心 表 的 方法 。 它 们 每 个 的 优点 和 缺点 各 是 什么 ? 

7.6 wait, signal, semereate 和 semdelete 使 用 信号 量 表 在 它们 之 间 协 作 。 使 用 一 个 信号 量 来 保护 信号 量 表 
的 使 用 是 否 可 行 ? 试 解释 之 。 

7.7 为 什么 semdelete 无 需 重 新 调度 就 可 以 调用 ready? 

7.8 考虑 一 个 可 能 的 优化 : 在 一 个 进程 置 于 就 绪 链 表 前 ，semdelete 检测 每 个 等 待 进程 的 优先 级 。 如 果 这 
些 进程 中 没有 比 当前 进程 高 优先 级 更 高 的 进程 ， 则 不 调用 resched。 这 个 优化 的 代价 是 什么 ”可 能 节 
省 了 什么 ? 

7.9 构建 一 个 新 的 系统 调用 ，signaln (sem, n), ‘EVA {aS tt sem 的 signal 操作 次。 你 能 找到 一 个 比 n 
次 调用 signal 更 加 有 效 的 实现 吗 ? 试 解释 之 。 

7.10 示例 代码 对 信号 量 使 用 FIFO 策略 。 也 就 是 说 ， 当 信和 号 量 执行 signal 操作 时 ， 已 经 等 待 最 长 时 间 的 队 
列 变 为 就 绪 。 考 虑 一 个 修改 : 等 待 信号 量 的 进程 保存 在 一 个 按 进程 优先 级 排列 的 优先 级 队列 中 C4] 
如 ， 当 信和 号 量 执行 singal 操作 时 ， 最 高 优先 级 的 等 待 进程 变 为 就 绪 。) 优先 策略 的 主要 缺点 是 什么 ? 

7. 11 语言 意味 着 特别 是 写 并 发 程序 时 ， 协 作 和 同步 常常 直接 包含 在 语言 结构 中 。 例 如 ， 有 可 能 声明 一 组 
过 程 ， 使 编译 器 自动 插入 代码 来 禁止 多 于 一 个 进程 来 执行 一 个 给 定 组 。 找 到 一 个 为 并 发 程序 设计 的 
语言 的 例子 ， 并 且 与 Xinu 代码 中 有 信和 号 量 的 进程 进行 比较 。 当 程序 员 被 明确 要 求 操作 信和 号 量 时 ， 程 
序 员 会 犯 什么 类 型 的 错误 ? 

7.12 当 把 一 个 等 待 进程 移 至 就 绪 状 态 时 ，wait 设置 进程 表 表 项 中 的 prem 字段 为 等 待 进程 的 信号 量 ID, 
这 个 值 会 被 使 用 吗 ? 

7. 13 ”如 果 程 序 员 犯 了 个 错误 ， 更 有 可 能 的 是 这 个 错误 会 产生 0 或 者 1， 而 不 是 任意 整数 。 为 了 帮助 避免 
错误 ， 修 改 newsem 从 表 的 最 大 地 址 处 分 配 信号 量 ，0 和 1 不 使 用 ， 一 直到 所 有 其 他 的 表 项 已 经 用 完 。 
提出 更 好 的 方式 来 识别 增加 检测 错误 能 力 的 信号 量 。 

14 ” 当 删 除 一 个 非 负 整数 值 的 信号 量 时 ， 函 数 semdelete 会 表现 异常 。 识 别 这 个 异常 行为 ， 并 尝试 重 写 代 
码 以 修正 这 个 异常 。 

7.15 画 一 个 从 第 4 章 ~ 第 7 章 所 有 操作 系统 函数 的 调用 图 ， 标注 出 一 个 给 定 函数 会 调用 哪些 函数 。 一 个 

多 层 结 构 能 否 从 图 中 推出 ? 试 解释 之 。 
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历史 给 我 们 传递 的 信息 明确 无 误 : 过 去 在 我 们 的 后 面 。 





一 一 佚名 


8.1 引言 

前 面 的 章节 解释 了 进程 管理 器 的 基本 爸 件 ,包括 : 调度 器 、 上 下 文 切换 以 及 协调 并 发 进程 的 计 
数 信号 量 。 这 些 章 说 明了 进程 是 如 何 创建 和 终结 的 ， 并 解释 了 操作 系统 如 何在 进程 表 中 存放 每 个 进 
程 信息 。 

本 章 总 结 基本 进程 管理 组 件 ， 介 绍 消息 传递 的 概念 ， 描 述 可 能 的 方法 ， 并 且 列 举 一 个 底层 消息 传 
递 系统 的 例子 。 第 11 章 解 释 高 层 消息 传递 组 件 是 如 何 通过 基本 的 进程 管理 机 制 来 建立 的 。 


8.2 两 种 类 型 的 消息 传递 服务 

我 们 使 用 消息 传递 (message passing) 这 个 词 来 表示 一 种 进程 间 交 互 的 形式 ， 其 中 一 个 线程 可 以 把 
(通常 是 少量 的 ) 数据 传递 给 另 一 个 进程 。 在 某 些 系统 中 ， 进 程 从 一 个 称 为 收取 点 (pickup point) 的 
地 方 存 取 和 检索 信息 ， 它 有 时 也 称 为 邮箱 (mailbox) 。 在 其 他 系统 中 ， 消 息 可 以 直接 定位 到 一 个 进程 。 
消息 传递 既 方便 又 强大 ， 有 些 操作 系统 使 用 它 作 为 进程 间 所 有 交互 和 协作 的 基础 。 例 如 ， 通 过 计算 机 
网 络 传送 数据 的 操作 就 能 够 使 用 消息 传递 原 语 来 实现 。 

有 些 消息 传递 组 件 提供 了 进程 协作 的 能 力 ， 因 为 这 个 机 制 会 阻塞 接收 者 直到 消息 到 达 。 因 此 ， 消 
息 传 递 可 以 代替 进程 挂 起 和 恢复 。 那 么 消息 传递 也 能 够 代替 同步 原 语 (比如 ， 信 号 量 ) yo 答案 依赖 
于 消息 传递 的 实现 方式 。 消 息 传 递 有 两 种 方式 : 

。 同步 ”如 果 接 收 者 试图 在 消息 到 达 前 接收 ， 那 么 它 就 会 阻塞 ;如 果 发 送 者 试图 在 接收 者 就 绪 前 

发 送 消息 ， 它 也 会 阻塞 。 发 送 进 程 和 接收 进程 应 当 同 步 或 者 一 方 为 等 待 另 一 方 而 阻塞 。 
。 异步 ”消息 可 以 在 任意 时 刻 到 达 ， 消 息 到 达 后 通知 接收 者 。 接 收 者 不 需要 知道 有 多 少 消息 到 达 
或 者 有 多 少 发 送 者 将 发 送 消息 。 

尽管 可 能 缺少 通用 性 和 便利 性 ， 但 同步 消息 传递 组 件 能 够 在 某 些 方面 发 挥 信号 量 的 作用 。 例 如 ， 
考虑 生产 者 - 消费 者 模型 。 每 次 产生 新 的 数据 ， 生 产 者 进程 能 够 发 送 消息 给 消费 者 进程 。 同 样 ， 不 用 
等 待 信号 量 ， 消 费 者 就 能 够 等 待 消息 。 使 用 消息 传递 来 实现 互 斥 更 复杂 ， 但 常常 是 可 行 的 。 

因为 同步 消息 传递 系统 适应 传统 的 计算 模型 ， 所 以 它 的 主要 优点 就 显露 出 来 。 为 了 在 同步 系统 里 
接收 消息 ， 进 程 需要 调用 一 次 系统 函数 ， 这 个 调用 会 阻塞 直到 消息 到 达 。 相 反 ， 异 步 消 息 传递 系统 或 
者 要 求 进程 轮 询 ( 即 过 一 段 时 间 就 检查 消息 ) ， 或 者 要 求 一 个 允许 操作 系统 暂停 进程 的 机 制 ， 人 允许 进 
程 来 处 理 消息 ， 然 后 恢复 正常 执行 。 尽 管 导 致 了 额外 的 负载 和 复杂 度 ， 但 是 如 果 进 程 不 知道 有 多 少 消 
息 要 到 达 ， 何 时 发 送 消息 ， 或 者 哪些 进程 发 送 消 息 ， 那 么 使 用 异步 消息 传递 比较 方便 。 


8.3 消息 使 用 资源 的 限制 

Xinu 支持 两 种 消息 传递 : 完全 同步 机 制 和 部 分 异步 机 制 。 这 两 种 方式 也 表明 了 直接 和 间接 消息 发 
送 的 区 别 : 一 个 提供 直接 的 进程 间 消 息 传递 ， 另 一 个 安排 消息 在 会 合 点 交互 。 本 章 的 讨论 从 提供 一 个 
进程 到 男 一 个 进程 的 直接 通信 的 组 件 开 始 。 第 11 章 讨论 第 二 种 消息 传递 机 制 。 将 消息 传递 分 成 两 个 独 
立 的 部 分 有 这 样 的 优势 : 可 以 使 得 进程 间 底 层 的 消息 传递 更 高 效 ， 同 时 又 允许 程序 员 按 需 选择 复杂 的 
会 合 方法 。 

Xinu 进程 到 进程 的 消息 传递 系统 经 过 了 仔细 设计 ， 以 确保 进程 发 送 消息 时 不 会 阻塞 ， 并 且 等 待 消 
息 时 不 会 消耗 掉 所 有 的 内 存 。 为 了 确保 这 些 目 标 ， 消 息 传递 组 件 遵 循 三 条 原则 : 
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。 限制 消息 大 小 。 系 统 限制 每 个 消息 为 一 个 较 小 的 固定 尺寸 。 在 我 们 的 示例 代码 中 ， 每 个 消息 包 
括 一 个 字 〈 即 一 个 整数 或 者 一 个 指针 ) 。 

e 没有 消息 队列 。 系 统 允 许 一 个 给 定 进程 为 每 个 进程 在 任意 时 刻 存储 唯一 一 个 未 接收 的 消息 。 这 
里 没有 消息 队列 。 

e 第 一 消息 语义 (first message semantic) 。 如 果 多 个 消息 发 送 到 一 个 给 定 的 进程 ， 而 这 个 进程 又 
不 能 接收 它们 ， 只 将 第 一 个 消息 存储 和 传递 。 随 后 的 发 送 者 不 会 阻塞 。 

当 需 要 判断 多 个 事件 中 的 哪 一 个 事件 最 先 完成 时 ， 第 一 消息 语义 的 概念 就 变 得 非常 有 用 。 等 待 事 

件 的 进程 可 以 安排 每 个 事件 发 送 一 个 唯一 的 消息 ， 然 后 进程 等 待 消息 的 到 来 ， 由 操作 系统 来 保证 进程 


会 收 到 第 一 个 发 送 的 消息 。 
8.4 消息 传递 函数 和 状态 转换 

send receive 

signal 等 待 状态 wait 
RERS 
resched 


对 消息 进行 操作 的 系统 调用 有 3 个 : send, re- 
ceive 和 reevelr, send 接收 一 个 消息 和 一 个 进程 ID 作 
为 参数 ， 并 且 传 递 消 息 到 特定 进程 。receive 不 需要 
任何 参数 ， 它 让 当前 进程 等 待 直到 消息 到 达 ， 然 后 
将 消息 返回 给 调用 者 。recvclr 提供 一 个 非 阻 塞 的 re- 
ceive 版 本 。 如 果 recvelr 调用 时 当前 进程 已 经 接收 了 
一 个 消息 ， 那 么 这 个 调用 就 会 像 receive 一 样 返回 这 
个 消息 。 但 是 如 果 没 有 消息 在 等 待 中 ，recvclr 立刻 返 
le] OK 值 ， 而 不 会 延迟 以 等 待 一 个 消息 的 到 达 。 正 如 
名 字 上 暗示 的 ，recvclr 在 进行 一 轮 消 息 传递 前 ， 能 够 用 — 
来 删除 一 个 旧 消 息 。 

问题 来 了 : 当 进 程 等 待 消息 时 应 处 于 哪 种 状态 
呢 ? 因为 等 待 消息 不 同 于 准备 执行 、 等 待 信号 量 、 
等 待 CPU、 假 死 等 已 有 的 状态 ， 因 此 ， 在 我 们 的 设 
计 中 应 当 使 用 另 一 个 状态 。 这 个 新 的 状态 接收 (re- 
ceiving) 在 示例 软件 中 表示 为 符号 常量 PR_RECV。 
增加 这 个 状态 产生 了 图 8-1 所 示 的 状态 转换 图 。 图 8-1 包括 接收 (receiving) 状态 的 状态 转换 图 。 [13] 








8.5 send 的 实现 


消息 传递 系统 要 求 发 送 者 和 接收 者 之 间 达 成 共识 ， 因 为 发 送 者 应 当 在 某 处 存储 消息 ， 接 收 者 也 能 
够 从 这 个 地 方 提取 消息 。 消 息 不 能 在 发 送 者 内 存 中 存储 ， 因 为 在 消息 接收 之 前 发 送 进程 可 能 退出 。 大 
多 数 的 操作 系统 不 允许 发 送 者 把 消息 放 到 接收 者 的 内 存 空间 ， 因 为 允许 一 个 进程 写 人 另 一 个 进程 的 内 
存 空 间 会 产生 安全 威胁 。 在 我 们 的 示例 系统 中 ， 消 息 大 小 的 限制 消除 了 这 个 问题 。 我 们 的 实现 在 接收 
者 的 进程 表 项 的 prmsg 字段 中 预 留 了 空间 。 

为 了 存储 消息 ，send 函数 首先 检查 指定 的 接收 进程 是 否 存在 。 然 后 检查 以 确保 接收 者 没有 未 完成 
的 消息 。 为 了 做 到 这 点 ，send 在 接收 者 的 进程 表 项 中 检查 prhasmsg 字段 。 如 果 这 个 接收 者 没有 未 完成 
的 消息 ， 则 send 在 prmsg 字段 存储 新 的 消息 ， 并 设置 prhasmsg 字段 为 TRUE 以 表明 有 消息 在 等 待 。 最 
后 一 步 ， 如 果 接 收 者 正在 等 待 一 个 消息 的 到 达 (比如 接收 进程 具有 状态 PR_RECV 或 者 状态 PR_REC- 
TIM), Jl send 通过 RESCHED_YES 参数 调用 ready 让 进程 就 绪 ， 并 且 重 新 建立 调度 不 变 式 。 在 PR_RE- 
CTM (这 个 状态 稍 后 介绍 ) 情况 下 ，send 应 当 首先 调用 unsleep 从 睡眠 进程 队列 中 移 除 这 个 进程 。 文 
ff send. c 包含 以 下 代码 。 


/* send.c - send */ 


#include <xinu.h> 





/* ewe we ee ee ————————————————————————————————ÀMá À oe oe ww eee ne = — 
* send - pass a message to a process and start recipient if waiting 
ee ee ee ee eS eee ie ee eee eo wee oe eo ee ee oe ee 
*/ 

syscall send( 

pid32 pid, /* ID of recipient process Sri 
umsg32 msg /* contents of message ial 
) 
{ 
intmask mask; /* saved interrupt mask fi 
struct procent *prptr; /* ptr to process’ table entry */ 
mask = disable(); 
if (isbadpid(pid)) { 
restore (mask); 
return SYSERR; 
} 
prptr = &proctab[pid]; 
if ((prptr->prstate == PR FREE) || prptr-»prhasmsg) { 
restore (mask); 
return SYSERR; 
) 
prptr-»prmsg - msg; /* deliver message *J 
prptr->prhasmsg = TRUE; /* indicate message is waiting  */ 
/* If recipient waiting or in timed-wait make it ready */ 
if (prptr->prstate == PR RECV) ( 
ready (pid, RESCHED YES); 
} else if (prptr->prstate == PR_RECTIM) { 
unsleep (pid); 
ready(pid, RESCHED YES); 
} 
restore (mask); /* restore interrupts */ 
return OK; 
} 


8.6 receive 的 实现 


进程 调用 receive (或 者 recvelr) 来 获取 一 个 传人 的 消息 。receive 检测 当前 进程 的 进程 表 项 ， 并 使 
用 prhasmsg 字段 来 决定 是 否 有 消息 在 等 待 。 如 果 没有 消息 到 达 ，receive 就 把 进程 状态 改 为 PR_RECV, 
并 且 调 用 resched 来 允许 其 他 进程 运行 。 当 另 一 个 进程 发 送 消息 给 接收 进程 时 ，resched 的 调用 直接 返 
lel, 一旦 执行 通过 这 语句 ，receive 将 提取 消息 ， 设 置 prhasmsg 为 FALSE， 并 且 返 回 消息 给 它 的 调用 者 。 
文件 receive. c 包含 以 下 代码 。 


/* receive.c - receive */ 


#include <xinu.h> 


/* ER 
* receive - wait for a message and return the message to the caller 
SISSI, a Per ro EE 
*/ 
umsg32 receive (void) 
{ 
intmask mask; /* saved interrupt mask */ 
struct procent *prptr; /* ptr to process’ table entry */ 


umsg32 msg; /* message to return x4 
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mask = disable(); 
prptr = &proctab[currpid]; 
if (prptr->prhasmsg == FALSE) { 

prptr->prstate = PR_RECV; 

resched(); /* block until message arrives 
} 
msg = prptr->prmsg; /* retrieve message 
prptr->prhasmsg = FALSE; /* reset message flag 


restore (mask) ; 
return msg; 
} 


消息 传递 + 75 


if 


*/ 
*/ 


仔细 看 代码 ， 注 意 receive 从 进程 表 项 把 消息 复制 到 局 部 变量 msg 中 ， 接 着 返回 msg 的 值 。 有 趣 的 
是 ，receive 并 没有 修改 进程 表 中 的 prmsg 字段 。 因 此 ， 一 种 更 有 效 的 实现 似乎 应 当 避 免 把 消息 复制 到 


局 部 变量 ， 而 只 是 从 进程 表 返 回信 息 : 


return proctab[ currpid]. prmsg; 134 
不 幸 的 是 ， 这 种 实现 是 不 正确 的 。 后 面 的 一 道 练 习 会 让 读者 考虑 为 什么 这 种 实现 可 能 导致 不 正确 
的 结果 。 
8.7 非 阻塞 消息 接收 的 实现 
recvelr 操作 除了 常常 立即 返回 外 ， 非 常 类 似 于 receive。 如 果 一 个 消息 正在 等 待 ， 则 reevelr 返回 这 
个 消息 ; 否则 ，recvclr 返回 OK, 
/* recvclr.c - recvclr */ 
#include <xinu.h> 
/* Ó—— 9 Dd i dd er e E EE EDI YES Emm PED E E E EA AL Pe MEE I EE mE E A 
* recvclr - clear incoming message, and return message if one waiting 
AOO a) MAD MM MCN 
umsg32  recvclr(void) 
{ 
intmask mask; /* saved interrupt mask */ 
struct procent *prptr; /* ptr to process’ table entry */ 
umsg32 msg; /* message to return ad 
mask = disable(); 
prptr = &proctab[currpid]; 
if (prptr->prhasmsg == TRUE) { 
msg = prptr->prmsg; /* retrieve message xf 
prptr->prhasmsg = FALSE; /* reset message flag xy 
) else ( 
msg - OK; 
) 
restore (mask); 
return msg; 
H 
8.8 观点 
类 似 于 前 面 章节 的 计数 信号 量 的 部 分 ， 基 本 的 信息 传递 组 件 的 代码 是 极其 紧凑 而 高 效 的 。 看 看 这 
些 函 数 ， 密 寥 数 行 就 实现 了 每 个 操作 。 此 外 ， 在 进程 表 中 存储 消息 缓冲 区 很 重要 ， 因 为 这 样 能 将 消息 
传递 从 内 存 管 理 中 独立 出 来 ， 并 且 允 许 在 底层 的 架构 中 使 用 信息 传递 。 135 


8.9 总 结 


消息 传递 组 件 提供 了 人 允许 一 个 进程 发 送 消息 给 另 一 个 进程 的 进程 间 通 信 机 制 。 一 个 完全 同步 的 消 
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息 传 递 系统 既 阻 塞 发 送 者 也 阻塞 接收 者 ， 并 依赖 于 有 多 少 消息 已 经 发 送 和 接收 。 我 们 的 示例 系统 包含 
了 两 个 信息 传递 组 件 : 一 个 低层 的 允许 进程 间 直 接 通信 的 机 制 ， 一 个 高 层 的 使 用 会 合 点 的 机 制 。 

Xinu 底层 的 消息 传递 机 制 限制 信息 的 大 小 为 一 个 字 ， 限 制 每 个 进程 最 多 有 一 个 未 完成 的 消息 ， 并 
使 用 第 一 消息 语义 。 消 息 的 存储 和 进程 表 相 关 一 一 发 送 到 进程 P 的 消息 存储 在 P 的 进程 表 项 中 。 第 一 
消息 语义 的 使 用 允许 进程 决定 先 触发 哪些 事件 。 

底层 的 消息 组 件 包括 三 个 函数 : send, receive 和 recvclr。 这 三 个 函数 中 ， 只 有 receive 是 阻塞 的 一 一 
它 阻 塞 调用 进程 直到 有 消息 到 达 。 在 开始 使 用 消息 传递 来 进行 交互 之 前 ， 进 程 使 用 reevelr 移 除 一 个 旧 的 
消息 。 


练习 

8.1 写 一 个 程序 ， 输 出 一 个 提示 ， 然 后 每 8 秒 循环 输出 这 个 提示 直到 某 个 人 输入 一 个 字符 。( 提示 :sleep 
(8) 延迟 这 个 调用 进程 8 秒 。) 

8.2 假设 send 和 receive 不 存在 ， 用 suspend 和 resume 写 代 码 来 实现 消息 传递 。 

8.3 示例 的 实现 使 用 了 第 一 消息 语义 。 现 有 哪个 组 件 处 理 了 最 后 消息 语义 ? 

8.4 实现 为 每 个 进程 记录 天 个 消息 的 send 和 receive 的 版 本 (连续 调用 send 阻塞 ) 。 

8.5 调查 系统 最 内 层 使 用 了 消息 传递 而 不 是 用 上 下 文 切换 的 操作 系统 。 优 点 是 什么 ? 主要 可 靠 性 呢 ? 

8.6 考虑 本 章 提 到 的 直接 从 进程 表 项 中 返回 消息 的 receive 的 修改 : 

return proctab[ currpid]. prmsg; 

解释 为 什么 这 种 实现 是 错误 的 。 

8.7 实现 定义 了 32 个 可 能 消息 的 send 和 receive 的 版 本 。 不 要 使 用 整数 来 代表 消息 ， 用 字 的 一 位 来 代表 每 
个 消息 ， 并 允许 一 个 进程 来 模拟 所 有 的 32 个 消息 。 

8.8 观察 到 ， 因 为 receive 使 用 了 SYSERR 来 表示 一 个 错误 ， 所 以 发 送 的 消息 和 SYSERR 有 相同 值 时 就 
会 产生 混 消 。 而 且 ， 如 果 没 有 消息 在 等 待 ，recvclr 就 返回 OK, (EX reevelr 使 得 如 果 没 有 消息 在 等 
待 返回 SYSERR, ， 并 修改 send 使 得 它 拒绝 发 送 SYSERR ( 即 检查 它 的 参数 ， 如 果 值 是 SYSERR 返回 
一 个 错误 ) 。 
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内 存 是 经 历 的 魅影 。 
一 一 佚名 


9.1 引言 

前 面 的 章节 解释 了 并 发 计算 和 操作 系统 管理 并 发 进程 的 机 制 ， 讨 论 了 进程 的 创建 和 终结 、 调 度 、 
上 下 文 切换 、 协 调和 进程 间 通 信 。 

本 章 开始 讨 第 二 个 关键 主题 : 操作 系统 存储 管理 的 机 制 。 本 章 着 重 于 基本 的 操作 : 栈 和 堆 的 动态 
分 配 。 本 章 介绍 一 些 用 来 分 配 和 释放 内 存 的 方法 ,解释 嵌入 式 系统 如 何 为 进程 处 理 内 存 。 第 10 章 将 继 
续 通 过 描述 地 址 空间 、 高 层 的 内 存 管理 机 制 和 虚拟 内 存 来 讨论 内 存 管 理 。 


9.2 内存 的 类 型 


由 于 主 存储 器 ( 主 存 ) 对 于 程序 的 执行 和 数据 的 存储 至 关 重 要 ， 所 以 主 存储 器 在 操作 系统 管理 的 
资源 中 等 级 很 高 。 操 作 系统 维护 空闲 内 存 块 的 大 小 和 位 置信 息 ， 并 且 在 有 请 求 的 情况 下 分 配给 并 发 的 
程序 。 当 进程 结束 的 时 候 系统 回收 分 配给 它 的 内 存 ， 以 便 再 次 使 用 。 

TEMA RA RAGA, - 主 存 包括 一 段 从 地 址 0 ~N -1 连续 的 位 置 集合 ， 代 码 和 数据 都 存储 在 存 
feat (内存 ) 中 。 小 型 的 能 人 式 系 统 可 能 使 用 两 种 存储 器 技术 : 

e 只 读 存 储 器 (ROM): 包括 闪存 ， 用 来 存储 程序 代码 和 常量 。 

e 随机 存储 器 (RAM): 用 来 存储 运行 时 的 变量 。 

在 地 址 使 用 方面 ， 两 种 存储 器 使 用 不 同 的 位 置 。 比 如 ,地 址 0~K-1 是 ROM, 地 址 K~N-1 
是 RAMS。 

有 些 系统 进一步 区 分 存储 器 技术 的 特定 类 型 。 例 如 ，RAM 可 以 分 成 两 类 : 

e 静态 RAM (SRAM): 更 快 , 但 是 更 贵 。 

e 动态 RAM (DRAM): 价 廉 , 但 是 更 慢 。 

由 于 SRAM 价格 昂贵 ， 所 以 系统 通常 使 用 少量 的 SRAM 和 大 量 的 DRAM。 如 果 存 储 器 的 类 型 不 同 ， 
程序 员 就 需要 仔细 地 将 频繁 使 用 的 变量 放 在 SRAM， 将 很 少 使 用 的 变量 放 在 DRAM, 


9.3 重量 级 进程 的 定义 

大 型 操作 系统 提供 了 一 种 保护 机 制 ， 阻止 程序 访问 分 配给 其 他 程序 的 内 存 区 域 。 第 10 章 讨论 虚 
拟 地 址 空间 如 何 分 配给 不 同 的 程序 。 重 量 级 进程 抽象 ( heavyweight process abstraction) 所 采取 的 方法 
是 首先 创建 地 址 空间 ， 然 后 创建 一 个 运行 在 该 地 址 空间 上 的 进程 。 通 常 ， 重 量 级 进程 的 代码 采用 动态 
加 载 一 一 程序 在 被 重量 级 进程 使 用 之 前 必须 编译 和 存储 在 硬盘 上 的 文件 中 。 因 此 ， 创 建 重量 级 进程 的 
Be, 程序 员 需要 指定 硬盘 上 包含 编译 代码 的 文件 ， 操 作 系 统 将 选 定 的 程序 装载 到 新 的 虚拟 地 址 空间 
中 ， 然 后 启动 一 个 进程 来 执行 该 程序 。 

有 趣 的 是 ， 有 些 支 持 重 量 级 进程 抽象 的 操作 系统 使 用 一 种 混合 的 方法 ， 其 中 包含 轻 量 级 进程 抽象 
(lightweight process abstraction) (例如 ,线程 )。 操 作 系 统 允许 用 户 创建 多 个 执行 在 同一 个 地 址 空间 内 
的 线程 ， 而 不 是 只 有 一 个 。 

在 一 个 混合 的 系统 中 ， 线 程 与 Xinu 中 的 进程 十 分 相似 。 每 个 线程 拥有 一 个 独立 的 运行 时 栈 ， 用 来 
存储 局 部 变量 和 函数 调用 。 重 量 级 进程 分 配 的 所 有 线程 共享 全 局 变量 ， 全 局 变量 从 重量 级 进程 地 址 空 





O 通常 K 和 NN 都 是 2 E. 
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间 的 数据 区 域 中 分 配 。 共 享 意味 着 协调 一 一 一 个 重量 级 进程 的 不 同 线程 必须 使 用 同步 原 语 ， 比 如 使 用 
信号 量 控制 共享 变量 的 访问 。 图 9-1 展示 了 一 个 混合 系统 。 
重量 级 进程 的 地 址 空间 





共享 变量 和 线程 楼 ( 进程 中 的 数据 


轻 量 级 进程 (线程) 上 进程 中 的 代码 





图 9-1 用 多 个 轻 量 级 进程 (线程 ) 共享 地 址 空间 来 说 明 重 量 级 进程 抽象 的 概念 


9.4 ”小 型 嵌入 式 系 统 的 内 存 管理 


大 型 符 和 人 式 系统 ， 例 如 应 用 在 视频 游戏 控制 中 的 系统 ， 拥 有 支持 虚拟 地 址 空间 的 二 级 存储 和 内 存 
管理 硬件 。 然 而 ， 在 小 型 蔡 入 式 系统 中 ， 硬 件 不 能 支持 多 个 地 址 空间 ， 不 能 保护 进程 。 因 此 ， 操 作 系 
统 和 所 有 的 进程 共享 一 个 地 址 空间 。 

虽然 在 单个 地 址 空间 内 运行 多 个 进程 缺少 了 保护 ， 但 是 这 种 方法 也 有 其 优势 。 这 些 进程 可 以 相互 
之 间 传 递 指针 ， 共 享 大 量 数据 而 无 需 从 一 个 地 址 空间 复制 到 另 一 个 地 址 空间 。 此 外 ， 操 作 系统 可 以 取 
消 指针 引用 ， 因 为 地 址 解析 不 依赖 于 进程 上 下 文 。 最 后 ， 只 有 一 个 地 址 空间 使 得 内 存 管理 器 比 复杂 系 
统 中 的 简单 很 多 。 


9.5 程序 段 和 内 存 区 域 


当 Xinu 为 小 型 柑 入 式 系 统 进行 编译 时 ， 内 存 映 像 被 分 为 四 个 连续 的 区 域 : 

e MAE. 

。 数据 段 。 

e bss Bi, 

e 空闲 空间 。 

文本 段 (text segment) ”文本 段 从 内 存单 元 0 开始 ， 包 含 每 个 函数 的 编译 代码 在 内 存 中 的 映像 。 文 
本 段 也 可 能 包含 常量 〈 例 如 ， 字 符 串 常量 ) 。 如 果 硬 件 有 保护 机 制 ， 那 么 文本 段 的 地 址 就 分 类 为 只 读 
(read only) ， 意 味 着 如 果 程 序 在 运行 时 试图 往 文本 段 里 写 信 息 ， 那 么 将 会 出 现 错误 。 

BHE (data segment) “数据 段 紧 接着 文本 段 ， 存 储 有 初始 值 的 全 局 变量 。 数 据 段 中 的 值 可 以 被 
访问 或 者 修改 (例如, è, S). 

bss ft (bss segment) ”以 符号 开始 的 块 (block started by symbol, bss), NX Ätit C 语言 的 汇编 语 
言 PDP-11。bss 段 紧 接 着 数据 段 ， 存 储 没 有 被 初始 化 的 全 局 变量 。 和 C 的 习惯 一 样 ， 在 程序 开始 前 ， 
Xinu 在 每 个 bss 段位 置 上 写 人 0。 

空闲 空间 (free space) ”超过 bss 段 的 内 存在 程序 开始 前 被 认为 空闲 的 。 下 一 节 将 介绍 操作 系统 如 
何 使 用 空闲 空间 。 
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正如 本 书 第 3 章 所 描述 的 那样 ，C 语言 装载 器 定义 了 3 个 外 部 符号 : etext, edata 和 end^, SHIA] 
来 标记 超过 文本 段 的 第 一 块 内 存单 元 ， 超 过 数据 段 的 第 一 块 内 存单 元 和 超过 bss 段 的 第 一 块 内 存单 元 。 
图 9-2 解 释 了 Xinu 开始 执行 时 内 存 布 局 和 3 个 外 部 符号 。 
最 大 地 址 





0 etext edata 
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图 9-2 Xinu 开始 执行 时 内 存 布局 


图 9-2 中 的 外 部 符号 不 是 变量 ， 而 是 当 映 像 装载 时 指向 内 存 位 置 的 名 字 。 因 此 ， 程 序 只 能 使 用 某 
个 外 部 符号 来 引用 位 置 ， 而 不 应 该 装载 一 个 值 。 例 如 ,文本 段 占用 内 存单 元 0 ~ etext - 1。 为 了 计算 大 
小 ， 程 序 定义 etext 为 一 个 外 部 的 整数 ， 在 表达 式 中 的 引用 方式 为 &etext。 

程序 怎样 确定 空闲 空间 的 大 小 ? 操作 系统 必须 配置 最 大 物理 内 存 地 址 或 者 在 启动 时 探寻 内 存 ?。 
在 启动 时 ， 系 统 将 最 大 有 效 内 存放 入 全 局 变量 maxheap 中 。 因 此 ,为 了 计算 空闲 空间 的 初始 大 小 ， 内 
存 管 理 代码 取 变 量 maxheap 和 变量 &end 的 差 值 。 


9.6 内 入 式 系统 中 的 动态 内 存 分 配 


虽然 在 地 址 空间 里 分 配 有 确定 的 位 置 ， 并且 一 直 占 用 物理 内 存 ， 程 序 段 和 全 局 变量 却 只 占据 一 个 
执行 进程 所 用 内 存 的 一 部 分 。 另 外 两 种 内 存 段 的 类 型 是 ; 

© Ko 

。 HE, 

栈 (stack) ”每 个 进程 都 需 要 栈 的 空间 来 存储 与 每 个 进程 的 函数 调用 相关 的 活动 记录 。 除 了 参数 
外 ， 这 种 活动 记录 还 包括 局 部 变量 。 

H (heap) ”一 个 进程 或 者 一 系列 进程 可 能 使 用 堆 来 存储 动态 分 配 的 变量 ,这些 变量 与 特定 的 函 
数 调用 无 关 。 

Xinu 使 用 这 两 种 动态 内 存 形 式 。 第 一 ， 当 创建 一 个 新 的 进程 时 ，Xinu 为 这 个 进程 分 配 一 个 栈 。 栈 
从 空闲 空间 的 最 高 地 址 进行 分 配 。 第 二 ， 当 - 一 个 进程 请 求 堆 存储 时 ，Xinu 从 空闲 空间 的 低地 址 分 配 必 
要 大 小 的 空间 给 该 进程 。 图 9-3 显示 了 3 个 进程 在 执行 时 的 内 存 布 局 ， 此 时 堆 已 经 分 配 。 


0 etext edata 











图 9-3 3 个 进程 创建 后 的 内 存 


9.7 低层 内 存 管理 器 的 设计 

一 组 函数 和 数据 结构 被 用 于 管理 空闲 内 存 。 低 层 内 存 管 理 器 提供 了 4 个 这 样 的 函数 : 

© getstk: 当 进 程 创 建 时 分 配 栈 空间 。 

e freestk; 当 进 程 终止 时 释放 栈 。 

e getmem; 按 需 分 配 堆 存储 。 

© freemem: 收 到 请 求 时 释放 堆 存 储 。 

我 们 的 设计 把 空闲 空间 当成 一 块 连续 的 、 可 用 尽 的 资源 一 一 低层 内 存 管 理 器 负责 分 配 可 能 满足 请 
求 的 空间 。 此 外 ， 低 层 内 存 管 理 器 不 会 把 空闲 内 存 分 为 提供 给 进程 栈 的 内 存 和 提供 给 堆 的 内 存 。 请 求 
一 种 类 型 的 内 存 会 占用 剩余 的 空闲 空间 ， 这 些 空间 不 会 留 给 另外 一 种 类 型 。 当 然 ， 这 样 一 种 分 配 只 会 
在 进程 协作 时 有 效 。 和 否则 ， 进 程 会 消耗 所 有 空闲 内 存 而 不 会 留 给 其 他 进程 。 第 10 章 介 绍 另外 一 种 方 





O 外 部 符号 名 会 被 装载 器 加 上 下 划 线 。 因 此 ，etext 变 为 _etext 。 
日 ”因为 物理 内 存在 E2100L 中 被 复制 过 ， 所 以 查看 内 存 很 困难 。 
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式 ， 一 系列 高 层 内 存 管理 方法 会 阻止 划分 子 系统 时 的 内 存 容量 。 高 层 内 存 管理 器 还 展示 如 何在 分 配 内 
存 前 阻塞 进程 。 

当 创建 一 个 新 的 进程 时 ，create 调用 getstk 来 分 配 栈 。getstk 从 空闲 空间 的 高 地 址 获取 一 块 内 存 ， 
返回 指向 该 块 的 指针 。create 在 进程 表 项 里 记录 栈 空间 的 大 小 和 位 置 ， 将 CONTEXT 区 域内 的 栈 地 址 放 
在 栈 顶 。 然 后 ， 当 这 个 进程 变 成 当前 程序 时 ， 就 进行 上 下 文 切换 来 访问 CONTEXT 区 域 ， 装 载 这 个 栈 
地 址 到 栈 指针 寄存 器 。 最 后 ， 当 进程 终止 时 ，kill 函数 调用 freestk 来 释放 进程 的 栈 ， 将 该 块 内 存 返回 到 
空闲 链表 中 。 

函数 getmen 和 freemen 为 堆 存储 执行 相似 的 任务 。 与 栈 分 配方 法 不 同 ，getmen 和 freemen 在 空闲 空 
间 的 最 低地 址 处 分 配 内 存 块 。 


9.8 分配 策略 和 内 存 持久 性 

因为 只 有 create 和 kill 分 配 和 释放 进程 栈 空间 ， 所 以 系统 可 以 保证 分 配给 进程 的 栈 空间 会 在 进程 退 
出 时 释放 。 然 而 ， 系 统 不 会 记录 进程 调用 getmem 所 得 到 的 堆 块 。 因 此 ， 系 统 不 会 自动 地 释放 堆 空 间 。 
这 样 ， 回 收 堆 空 间 的 任务 就 留 给 了 程序 员 ; 

扒 空间 与 分 配 该 堆 的 进程 无 关 。 在 进程 退出 之 前 ， 进 程 必须 显 式 地 释放 其 得 到 的 堆 空间 ， 

否则 该 空间 会 一 直 处 于 分 配 的 状态 。 

当然 ， 释 放 堆 空间 并 不 能 保证 堆 不 会 耗 尽 。 一 方面 ,需求 可 能 超过 可 利用 的 空间 ; 另外 一 方面 ， 
空闲 空间 可 能 变 成 很 小 的 、 不 连续 的 碎片 ， 以 至 于 无 法 满足 请 求 。 第 11 章 将 继续 讨论 分 配 策略 ， 展 示 
出 一 种 避免 空闲 空间 碎片 的 方法 。 


9.9 追踪 空闲 内 存 


内 存 管 理 器 必须 知道 所 有 的 空闲 内 存 块 的 信息 。 为 了 实现 该 目的 ， 内 存 管理 器 维持 一 张 链表 ， 表 

中 的 每 一 项 代表 一 个 块 开始 的 地 址 和 块 的 长 度 。 开 始 ， 这 张 表 
只 有 一 项 ， 代 表 程 序 结尾 与 内 存 中 最 高 地 址 之 间 的 内 存 块 。 当 
一 个 进程 请 求 内 存 块 时 ， 内 存 管理 器 搜寻 这 张 表 ， 找 到 一 块 空 


0x84F800 


0x850F70 





闲 区 域 ， 然 后 分 配给 其 请 求 大 小 的 块 ， 更 新 这 张 表 就 会 显示 出 ht 
空闲 内 存 被 分 配 的 程度 。 类 似 地 ， 当 一 个 进程 释放 之 前 被 分 配 uan 

的 块 时 ， 内 存 管理 器 会 将 这 个 块 加 到 表 里 。 图 9-4 展示 了 有 四 

块 空闲 内 存 块 的 例子 。 图 9-4 “四 个 空闲 存储 块 的 概念 列表 


内 存 管理 器 必须 小 心地 检查 每 次 存储 操作 ， 以 避免 产生 不 规则 长 度 的 表 。 当 释放 一 块 时 ， 内 存 
管理 器 扫描 整个 链表 查看 该 块 是 否 与 已 经 存在 的 空闲 块 的 末端 相 邻 。 如 果 是 ， 则 无 需 加 入 新 的 表 项 ， 
i... 类 似 地 ， 如 果 该 块 与 已 经 存在 的 空闲 块 开 始 处 相 邻 ， 则 更 新 这 个 表 项 。 

， 如 果 释 放 的 块 恰好 填充 两 个 空闲 块 之 间 的 间隔， 内 存 管理 器 就 将 这 两 个 表 项 合并 成 一 个 大 的 
i "METE ERRE 我 们 用 联合 (coalesce) 表示 合并 表 项 。 关 键 是 ， 一 旦 将 
所 有 分 配 的 块 释放 ， 这 个 表 就 回 到 初始 状态 ， 即 只 有 一 个 表 项 代表 程序 结束 处 和 内 存 最 高 处 之 间 的 内 
存 块 。 


9. 10 低层 内 存 管 理 的 实现 


空闲 内 存 块 的 链表 存储 在 哪里 ? 我 们 例子 的 实现 遵循 一 种 标准 方法 ， 即 用 空闲 内 存 自身 存储 这 张 
链表 。 毕 竞 ， 如 果 不 使 用 空闲 内 存 块 ， 也 就 不 需要 这 张 表 。 因 此 ， 空 闲 内 存 块 可 以 用 指针 连接 起 来 形 
成 链表 。 

在 代码 中 ， 全 局 变量 memlist 拥有 一 个 指向 第 一 个 空闲 块 的 指针 。 理 解 这 种 实现 的 关键 是 一 句 百 古 
不 变 的 话 : 

所 有 的 空 亲 内 存 块 储存 在 链表 中 ， 空 闲 表 中 的 块 以 地 址 递增 顺序 排序 。 
图 9-4 中 的 概念 链表 展示 了 与 每 个 表 项 相 联系 的 两 个 字段 : 地 址 和 大 小 。 在 我 们 的 链表 实现 中 ， 


第 9 章 基本 内 存 管理 


每 个 链表 中 的 结 点 指向 下 一 个 结 点 〈 例 如 ， 通 过 存储 地 址 的 方式 )。 最 后 ， 我 们 必须 存储 每 个 块 的 大 
小 。 因 此 ， 每 个 空闲 内 存 块 包含 两 个 字段 : 一 个 指向 下 一 个 空闲 内 存 块 的 指针 ， 一 个 给 出 当前 块 大 小 
的 整数 。 图 9-5 解释 了 这 种 概念 。 


作用 在 空闲 块 
上 的 memblk 结 构 











全 局 变量 memlist x 字 节 的 空闲 块 J 字 节 的 空闲 块 
9-5 有 两 个 内 存 块 的 空闲 内 存 表 
定义 在 memory. h 中 的 结构 menblk 给 出 了 可 以 实现 每 个 空闲 结 点 的 数据 结构 的 轮廓 。 在 结构 mem- 


blk 中 mnext 字段 指向 链表 中 的 下 一 个 块 ， 如 果 该 块 为 最 后 一 个 块 则 赋值 为 NULL。mlength 字段 定义 
了 当前 块 的 长 度 (BEKA, AA). TERR, KEE unsigned long 变量 ， 这 样 最 大 空间 可 以 是 整 
个 物理 地 址 空间 。 

变量 memlist 组 成 了 这 个 链表 的 头 部 ， 该 变量 定义 为 memblk 结构 。 因 此 ， 表 头 与 表 中 其 他 的 结 点 
有 完全 相同 的 形式 。 然 而 ，mlength 字段 (用 来 存储 块 的 大 小 ) 在 memlist 中 却 没 有 意义 ， 因 为 menlist 
的 大 小 可 以 直接 表示 为 sizeof (struct menblk) 。 所 以 ， 我 们 可 以 让 长 度 字 段 有 其 他 用 途 。Xinu 使 用 这 个 
字段 存储 整个 空闲 内 存 的 大 小 〈 例 如 ， 每 个 块 中 长 度 字 段 的 总 和 ) 。 知 道 空闲 内 存 的 大 小 可 以 在 调试 
或 者 判断 系统 是 否 接近 最 大 值 时 起 到 作用 。 

注意 ， 每 个 空闲 表 中 的 块 必 须 有 完整 的 memblk 结构 (例如 ，8 字 节 )。 这 样 的 设计 也 存在 缺 
点 : 内 存 管理 器 不 能 存储 小 于 8 字 节 的 空闲 块 。 我 们 如 何 保证 不 会 有 进程 试图 释放 一 个 更 小 的 内 
存 呢 ?我 们 可 以 告诉 程序 员 必 须 释 放 与 请 求 相同 的 内 存 ， 并 且 让 内 存 管理 程序 确保 所 有 的 请 求 必 
须 至 少 为 8 字 节 。 但 是 如 果 内 存 管理 器 提取 一 块 空闲 内 存 时 ， 另 外 一 个 问题 就 可 能 产生 : 剩余 的 
内 存 可 能 小 于 8 字 节 。 为 了 解决 这 个 问题 ， 内 存 管理 器 使 所 有 的 请 求 是 memblk 结构 长 度 的 倍数 。 
使 用 两 个 内 联 函 数 ，round 和 truncmb， 实 现 这 种 功能 。roundmb 将 请 求 取 整 为 8 字 节 的 倍数 ， 
trunemb 用 来 将 内 存 大 小 截断 为 8 字 节 的 倍数 。 截 断 只 使 用 一 次 : 空闲 空间 初始 的 大 小 必须 截断 而 
不 是 取 整 。 关 键 点 是 : 

所 有 的 请 求 取 整 为 memblk 结构 大 小 的 倍数 ， 确 保 每 个 请 求 满足 约束 条 件 ， 保 证 不 会 有 空 

闲 块 太 小 而 不 能 链接 到 空闲 链表 中 。 i 

文件 memory. h 包含 与 内 存 管理 有 关 的 声明 ， 包 括 两 个 内 联 函数 round 和 trunemb 的 定义 。 为 了 高 
效 地 实现 ， 这 两 个 方法 采用 常数 和 布尔 运算 而 不 是 sizeof 函数 和 除法 。 使 用 布尔 运算 是 可 行 的 ， 因 为 内 
存 块 的 大 小 是 2 BRE o 


/* memory.h - roundmb, truncmb, freestk */ 





#define PAGE_SIZE 4096 
#define MAXADDR 0x02000000 /* 160NL has 32MB RAM #/ 
/* —————————————————————————————————— 


*/ 

#define roundmb (x) (char *)( (7 + (uint32)(x)) & (+7) ) 

#define truncmb(x) (char *)( ((uint32)(x)) & (-7) ) 

gx —————————————————————————————— A 
* freestk -- free stack memory allocated by getstk 
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#define freestk(p,len) freemem((char *)((uint32) (p) \ 
- ((uint32)roundmb(len)) X 
+ (uint32)sizeof (uint32)), N 


(uint32)roundmb(len) ) 


struct memblk { /* see roundmb & truncmb y 
struct memblk  *mnext; /* ptr to next free memory blk */ 
uint32 mlength; /* size of blk (includes memblk)*/ 
7 

extern struct memblk memlist; /* head of free memory list ey 

extern void *maxheap; /* max free memory address wf 

extern void *minheap; /* address beyond loaded memory */ 


/* added by linker */ 


extern int end; /* end of program */ 
extern int edata; /* end of data segment wy 
extern int etext; /* end of text segment xy 


9.11 “分 配 堆 存储 


PRIX getmem 通过 寻找 满足 请 求 的 空闲 块 来 分 配 堆 存 储 。 我 们 的 实现 使 用 最 先 适 配 (first-fit) 分 配 
策略 ， 该 策略 分 配 空闲 链表 上 第 一 个 满足 请 求 的 块 。getmem 从 找到 的 空闲 块 中 减 去 请 求 的 内 存 大 小 并 








148] ”相应 地 调整 空闲 链表 。 文 件 getmem. c 包含 了 这 部 分 源 代码 。 








/* getmem.c - getmem */ 


#include <xinu.h> 


/* ——————— —————M—————————————MÁlÍ— — ———— —Á—ÁÉ—— 
* getmem -  Allocate heap storage, returning lowest word address 
Lo ———— ——————————————————————————— 
of 
char *getmem( 
uint32 nbytes /* size of memory requested ef 
) 
{ 
intmask mask; /* saved interrupt mask */ 


struct memblk  *prev, *curr, *leftover; 


` 


x 
mask = disable(); 


if (nbytes == 0) { 
restore (mask) ; 
return (char *)SYSERR; 


nbytes = (uint32) roundmb(nbytes) ; /* use memblk multiples */ 


prev = &memlist; 
curr = memlist.mnext; 
while (curr != NULL) { /* search free list */ 


if (curr->mlength == nbytes) ( /* block is exact match */ 
prev-»mnext - curr-»mnext; 
memlist.mlength -- nbytes; 
restore (mask); 
return (char *) (curr); 
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} else if (curr->mlength > nbytes) { /* split big block */ 
leftover = (struct memblk *)((uint32) curr + 
nbytes) ; 
prev-»mnext = leftover; 
leftover->mnext = curr->mnext; 
leftover->mlength = curr->mlength - nbytes; 
memlist.mlength -= nbytes; 
restore (mask); 
return (char *)(curr); 
) else ( /* move to next block x} 


prev 


= curr; 
curr = curr->mnext; 


} 
} 
restore (mask); 


return (char *)SYSERR; 
) 


验证 了 参数 合法 并 且 空 闲 链表 不 为 空 后 ，getmem 使 用 roundmb 函数 把 请 求 的 内 存 大 小 调整 为 memblk 
大 小 的 倍数 ， 然 后 搜索 空闲 链表 寻找 第 一 个 大 小 满足 请 求 的 内 存 块 。 由 于 空闲 链表 是 单 向 链表 ， 所 以 
getmem 使 用 prev 和 curr 两 个 指针 来 遍历 链表 。getmem 在 搜索 过 程 中 维护 如 下 不 变 式 : 当 curr 指向 一 个 
空闲 块 时 ，prey 指向 该 块 在 链表 中 的 前 驱 块 〈 可 能 为 链表 的 头 结 点 ，memlist) 。 遍 历 链 表 的 过 程 中 ， 代 
码 必 须 保证 该 不 变 式 保持 不 变 。 因 此 ， 当 找到 一 个 大 小 满足 请 求 的 空闲 块 时 ，prev 指向 块 的 前 驱 块 。 

在 遍历 链表 的 每 一 步 ，getmem 把 当前 块 的 大 小 和 请 求 的 大 小 nbytes 进行 比较 。 比 较 的 结果 有 3 种 
情况 。 如 果 当 前 块 的 大 小 小 于 请 求 的 大 小 ， 则 getmem 移动 到 链表 的 下 一 块 继续 进行 搜索 ; 如 果 当 前 块 
的 大 小 正好 和 请 求 的 大 小 相等 ， 则 getmem 从 空闲 链表 中 删除 该 块 (通过 把 该 块 前 驱 块 的 mnext Brit 
置 为 该 块 的 后 继 块 来 实现 ) ， 然 后 返回 指向 该 块 的 指针 ; 如 果 当 前 块 的 大 小 大 于 请 求 的 大 小 ， 则 get- 
mem 把 当前 块 分 割 为 两 块 : 一 块 大 小 为 nbytes， 该 块 将 返回 给 调用 者 ; 剩余 部 分 将 留 在 空闲 链表 上 。 
进行 块 分 割 时 ，getmem 计算 剩余 部 分 的 地 址 并 保存 在 变量 leftover 中 。 计 算 剩余 部 分 的 地 址 在 概念 上 很 
简单 : 剩余 部 分 在 该 块 开头 之 后 的 nbytes 处 。 但 是 ， 把 curr 增加 nbytes 并 不 能 产生 期 望 的 结果 ， 因 为 
C 语言 对 指针 进行 的 是 指针 运算 。 为 了 强制 C 语言 使 用 整数 运算 ， 在 与 nbytes 相 加 前 ，curr 指针 需要 
先 强 制 转换 为 一 个 无 符号 整数 ( (uint32) cur) 。 当 计算 出 结果 后 ， 再 使 用 强制 转换 把 计算 结果 转换 回 
指向 内 存 块 的 指针 。 通 过 上 述 方法 计算 出 leftover 后 ， 更 新 prev 块 的 mnext 字段 ， 并 且 相 应 地 对 leftover 
块 的 mnext 和 mlength 字段 进行 赋值 。 

这 部 分 代码 依赖 一 个 基本 的 数学 关系 : 减 去 两 个 天 的 倍数 将 产生 一 个 天 的 倍数 。 在 上 述 的 例子 
H, 天 的 大 小 为 一 个 memblk 结构 的 大 小 。 因 此 ， 如 果 系 统 开 始 时 使 用 roundmb 对 空闲 内 存 的 大 小 进行 
取 整 并 使 用 roundmb 调整 请 求 的 大 小 ， 则 每 个 空闲 块 和 每 个 剩余 部 分 都 将 足够 容纳 一 个 memblk 结构 。 


9.12 “分配 栈 存储 


函数 getstk 给 进程 栈 分 配 一 块 内 存 。 创 建 进程 时 都 调用 getstk。 这 部 分 代码 在 文件 getstk. c 中 。 

由 于 空闲 链表 按照 内 存 地 址 有 序 排 列 并 且 栈 空间 从 地 址 最 高 的 可 用 块 分 配 ， 所 以 getstk 必须 搜索 
整个 空闲 链表 。 在 搜索 过 程 中 ，getstk 记录 任何 一 个 能 满足 请 求 的 块 地 址 ”。 这 意味 着 在 搜索 完成 后 ， 
最 后 记录 的 地 址 指向 满足 请 求 并 且 地 址 最 高 的 空闲 块 。 和 getmem 一 样 ，getstk 在 搜索 过 程 中 维护 相同 
的 不 变 式 ， 变 量 curr 和 prev 分 别 指向 一 个 空闲 块 和 该 空闲 块 的 前 驱 块 。 当 找到 一 个 大 小 满足 请 求 的 块 
时 ，getstk 把 变量 fits 设置 为 该 块 的 地 址 并 把 变量 fitprev 设置 为 该 块 前 驱 块 的 地 址 。 因 此 ， 当 搜索 完成 
后 ，fits 指向 可 用 的 、 内 存 地 址 最 高 的 空闲 块 〈 如 果 没 有 满足 请 求 的 块 ，fits 等 于 NULL) 。 

当 搜 索 结束 并 找到 一 个 块 时 ， 与 getmem 类 似 ， 这 里 有 两 种 情况 。 如 果 这 个 块 的 大 小 正好 和 请 求 的 
大 小 相等 ， 则 getstk 从 空闲 链表 中 移 除 该 块 并 返回 该 块 的 地 址 给 调用 者 ; 否则 ，getstk 把 该 块 分 为 两 





O 分 配 具有 最 高 地 址 并 满足 请 求 的 块 的 策略 称 为 最 后 适 配 (last-fit) 策略 。 
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块 ， 一 块 分 配 nbytes 大 小 ， 另 一 块 留 在 空闲 链表 上 。 由 于 getstk 需要 返回 选 出 块 的 最 高 地 址 部 分 ， 所 
151 ”以 地 址 计算 和 getmem 中 的 方法 稍微 有 些 不 同 。 


/* getstk.c - getstk */ 


#include <xinu.h> 


/* ——————————————————————————————————————— 
* getstk -  Allocate stack memory, returning highest word address 
MW sabbiosa oiran 
wy 
char *getstk( 
uint32 nbytes /* size of memory requested #/ 
) 
{ 
intmask mask; /* saved interrupt mask E 
struct memblk *prev, *curr; /* walk through memory list */ 
struct memblk *fits, *fitsprev; /* record block that fits +f 
mask = disable(); 
if (nbytes == 0) { 
restore (mask) ; 
return (char *) SYSERR; 
} 
nbytes = (uint32) roundmb(nbytes) ; /* use mblock multiples */ 
prev = &memlist; 
curr = memlist.mnext; 
fits = NULL; 
while (curr != NULL) { /* scan entire list “yi 
if (curr->mlength >= nbytes) { /* record block address */ 
fits = curr; LF when request fits */ 
fitsprev = prev; 
} 
prev = curr; 
curr = curr-»mnext; 
} 
if (fits == NULL) { /* no block was found */ 
restore (mask); 
return (char *)SYSERR; 
} 
if (nbytes == fits->mlength) { /* block is exact match */ 
fitsprev->mnext = fits-»mnext; 
} else { /* remove top section xy 
fits->mlength -= nbytes; 
fits = (struct memblk *)((uint32)fits + fits-»mlength); 
} 
memlist.mlength -= nbytes; 
restore (mask); 
return (char *)((uint32) fits + nbytes - sizeof(uint32)); 
} 


9.13 ”释放 堆 和 栈 存储 
当 使 用 完 一 块 堆 存储 后 ， 进 程 调用 freemem 函数 把 该 块 返回 到 空闲 链表 中 ， 使 这 块 内 存 可 以 被 后 
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续 的 内 存 分 配 使 用 。 由 于 空闲 链表 中 的 块 按照 地 址 顺序 保存 ， 所 以 freemem 根据 该 块 的 地 址 找到 其 在 
链表 上 的 正确 位 置 。 另 外 ，freemem 还 负责 合并 (coalescing) 该 块 与 相 邻 的 空闲 块 。 合 并 存在 3 种 情 
Bi. 新 的 内 存 块 与 前 驱 块 相 邻 ; 新 的 内 存 块 与 后 继 块 相 邻 ; 或 者 与 两 块 都 相 邻 。 当 这 3 种 情况 中 的 任 
一 种 出 现时 ，freemem 把 新 块 和 相 邻 块 合并 ， 在 空闲 链表 上 形成 一 个 大 的 块 。 合 并 可 以 帮助 避免 产生 内 
存 碎 片 。 

函数 freemem 的 代码 可 以 在 freemem. c 文件 中 找到 。 和 getmem 相似 ，prev 和 next 两 个 指针 用 来 遍 
历 空 闲 块 链表 。freemem 搜索 空闲 链表 直到 返回 的 块 地 址 处 于 prev 和 next 之 间 。 一 旦 找到 了 正确 的 位 
置 ， 代 码 就 执行 块 合并 。 

合并 的 处 理 过 程 分 为 3 步 。 代 码 首先 检查 能 否 与 前 驱 块 合并 ， 即 freemem 将 前 驱 块 的 长 度 和 前 驱 
块 的 地 址 相 加 计算 出 前 驱 块 之 后 的 内 存 地 址 。freemem 把 存储 在 top 变量 中 的 计算 结果 与 插入 块 的 地 址 
进行 比较 。 如 果 揪 入 块 的 地 址 与 top 变量 的 值 相等 ，freemem 通过 增加 前 驱 块 的 大 小 把 新 块 包含 在 前 驱 
块 中 ; 否则 ，freemem 把 新 块 插入 到 链表 中 。 当 然 ， 如 果 prev 指针 指向 memlist 的 头 结 点 ， 则 不 需要 执 
行 合并 。 

当 处 理 完 与 前 驱 块 的 合并 后 freemem 检测 能 否 与 后 继 块 合并 。freemem 计算 当前 块 之 后 的 内 存 地 
址 并 测试 该 地 址 是 否 与 后 继 块 的 地 址 相等 。 如 果 相 等 ， 说 明 当 前 块 与 后 继 块 相 邻 ， 则 freemem 增加 当 
前 块 的 大 小 把 后 继 块 包含 在 当前 块 中 ， 并 把 后 继 块 从 链表 中 移 除 。 

重要 的 一 点 是 ，freemem 处 理 了 3 种 特殊 情况 : 

当 向 空闲 链表 中 添加 块 时 ， 内 存 管理 器 必须 检查 新 的 块 是 否 与 前 驱 块 相 邻 、 与 后 继 块 相 
邻 ， 或 者 与 两 块 都 相 邻 。 


/* freemem.c - freemem */ 


#include <xinu.h> 


/* e ——— —— ———————ÉÓIRÓ TI — Q——— iin DI IN OE POR REA Er 
* freemem - Free a memory block, returning the block to the free list 
| m -————————————————————————————————————————————— 
* 

syscall freemem( 

char *blkaddr, /* pointer to memory block 4 
uint32 nbytes /* size of block in bytes uz 
) 
{ 
intmask mask; /* saved interrupt mask wf 


struct memblk  *next, *prev, *block; 
uint32 top; 


mask - disable(); 
if ((nbytes -- 0) || ((uint32) blkaddr « (uint32) minheap) 
|| ((uint32) blkaddr » (uint32) maxheap)) ( 
restore (mask); 
return SYSERR; 
) 


nbytes = (uint32) roundmb (nbytes); /* use memblk multiples */ 
block = (struct memblk *)blkaddr; 


prev - &memlist; /* walk along free list */ 
next - memlist.mnext; 
while ((next !- NULL) && (next « block)) ( 

prev - next; 

next - next-»mnext; 
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if (prev == &memlist) ( /* compute top of previous block*/ 
top - (uint32) NULL; 

) else ( 
top = (uint32) prev + prev-»mlength; 

) 

/* Insure new block does not overlap previous or next blocks ball 


if (((prev != &memlist) && (uint32) block < top) 
|| ((next != NULL) && (uint32) block+nbytes>(uint32)next)) ( 
restore (mask) ; 
return SYSERR; 
} 


memlist.mlength += nbytes; 
/* Bither coalesce with previous block or add to free list */ 


if (top == (uint32) block) { /* coalesce with previous block */ 
prev->mlength += nbytes; 
block = prev; 

} else { /* link into list as new node cy 
block->mnext = next; 
block->mlength = nbytes; 
prev->mnext = block; 


} 
/* Coalesce with next block if adjacent */ 


if (((uint32) block + block->mlength) == (uint32) next) { 
block->mlength += next->mlength; 
block->mnext = next->mnext; 

) 

restore (mask); 

return OK; 


) 

由 于 空闲 内 存 可 以 用 做 栈 或 堆 存 储 的 单一 资源 ， 所 以 释放 栈 内 存 遵循 与 释放 扒 存 储 相 同 的 算法 。 
堆 分 配 和 栈 分 配 唯一 的 不 同 点 在 于 getmem 返回 分 配 块 的 最 低地 址 ， 而 getstk 返回 分 配 块 的 最 高 地 址 。 
在 当前 实现 中 ，freestk 是 一 个 调用 freemem 的 内 联 函 数 。 在 调用 freemem 之 前 ，freestk 必须 把 它 的 参数 
从 块 的 最 高 地 址 转换 到 最 低地 址 。 这 部 分 代码 可 以 在 memory. h^ 中 找到 。 虽 然 当 前 的 实现 使 用 一 个 底 
层 单 链 表 ， 但 把 freestk 和 freemem 分 开 能 保持 概念 区 别 ， 并 且 之 后 更 容易 对 实现 进行 修改 。 它 的 要 
点 是 : 

尽管 当前 的 实现 使 用 相同 的 底层 函数 来 释放 堆 和 栈 存储 ， 但 是 为 freestk 和 freemem 生成 
不 同 的 系统 调用 保持 概念 区 别 并 使 系统 以 后 更 容易 改变 。 


9.14 观点 


虽然 机 制 相对 简单 ， 但 内 存 管 理子 系统 的 设计 展现 了 操作 系统 中 最 令 人 惊讶 的 微妙 之 处 。 这 个 问 
题 由 基本 的 冲突 引起 : 一 方面 ， 操 作 系 统 设计 为 不 间断 运行 ， 因 此 操作 系统 必须 节约 资源 ， 当 一 个 进 
程 使 用 完 一 个 资源 后 ， 系 统 必须 回收 该 资源 并 使 其 对 其 他 进程 可 用 。 另 一 方面 ,任何 允 许 进程 分 配 和 
释放 任意 大 小 内 存 块 的 内 存 管理 机 制 都 不 是 资源 节约 的 ， 因 为 空闲 内 存 可 能 被 分 割 为 小 而 不 连续 的 块 
从 而 使 内 存 碎片 化 。 因 此 ， 设 计 者 必须 进行 折 中 。 人 允许 分 配 任意 大 小 内 存 使 系统 更 容易 使 用 ， 但 也 引 





© 文件 memory.h 可 以 在 9.9 节 找到 。 


第 9 章 基本 内 存 管理 
入 了 一 些 潜在 的 问题 。 


9.15 总 结 

大 型 操作 系统 提供 了 复杂 的 内 存 管理 方案 ， 人 允许 对 内 存 的 请 求 超过 实际 内 存 的 大 小 。 这 种 系统 把 
数据 保存 在 二 级 存储 器 中 ， 在 引用 数据 时 将 数据 移 到 主 存 中 。 高 级 内 存 管理 系统 支持 多 虚拟 地 址 空间 ， 
允许 每 个 应 用 程序 从 零 开 始 对 内 存 进行 取 址 。 我 们 使 用 术语 重量 级 进程 (heavyweight process) 来 指 代 
运行 在 独立 地 址 空间 中 的 应 用 程序 ; 轻 量 级 进程 抽象 允许 在 一 个 虚拟 空间 中 运行 一 个 或 多 个 进程 。 分 
页 是 最 为 普遍 使 用 的 技术 ， 用 于 提供 虚拟 地 址 空间 和 多 路 复 用 它们 到 物理 内 存 上 。 

小 型 代入 式 系统 通常 把 所 有 代码 和 数据 保存 在 物理 内 存 中 。 一 个 进程 包含 3 段 : 一 段 包含 已 编译 
代码 的 文本 段 、 一 段 包含 已 初始 化 数据 值 的 数据 段 和 一 段 包含 未 初始 化 变量 的 bss 段 。 当 系统 启动 后 ， 
没有 分 配给 这 三 段 的 物理 内 存 视 为 空闲 内 存 ， 一 个 低层 内 存 管 理 器 按 需 分 配 这 些 空闲 内 存 。 


Xinu 中 的 低层 内 存 管 理 器 维护 一 个 空闲 内 存 块 链表 ， 堆 和 栈 存储 根据 需要 从 链表 上 进行 分 配 。 堆 


存储 的 分 配 通过 寻找 第 一 个 满足 请 求 的 空闲 内 存 块 〈 即 具有 最 低地 址 的 空闲 块 ) 来 完成 。 栈 存储 的 分 
配 则 选取 满足 请 求 且 具有 最 高 地 址 的 内 存 块 。 由 于 空闲 内 存 块 链表 按照 地 址 顺序 单 向 连接 ， 因 此 分 配 
栈 空间 需要 搜索 整个 空闲 链表 。 

低层 内 存 管理 器 把 空闲 空间 视 为 可 耗 尽 的 资源 并 且 栈 存储 和 堆 存 储 之 间 没 有 进行 分 离 。 由 于 这 种 
内 存 管理 器 不 包含 防止 一 个 进程 分 配 完 所 有 可 用 内 存 的 机 制 ， 所 以 程序 员 必须 谨慎 规划 来 防止 内 存 耗 
尽 。 第 LO 章 讨论 的 高 级 内 存 管理 器 将 阑 述 内 存 如 何 分 割 成 不 同 区 域 和 一 组 进程 如 何 阻塞 等 待 内 存 变 得 
可 用 。 


练习 

9.1 低级 内 存 管理 器 的 一 个 早期 版 本 没有 提供 把 内 存 块 返回 到 空闲 链表 的 功能 。 对 嵌 人 式 系统 进行 推断 : 
freemem 和 freestk 是 必要 的 吗 ? 为 什么 是 或 为 什么 不 是 ， 请 说 明理 由 。 

9.2 使 用 一 组 永久 性 分 配 堆 和 栈 内 存 的 函数 〈 即 不 需要 提供 机 制 把 存储 空间 返回 到 空闲 链表 ) 替换 低级 
内 存 管理 函数 。 新 分 配 程序 的 大 小 与 getstk 和 getmem 的 大 小 相 比 结果 如 何 ? 

9.3 从 空闲 空间 两 端 分 配 栈 和 堆 存 储 的 方法 能 帮助 最 小 化 内 存 碎片 吗 ?” 为 了 找 出 答案 ， 考 虑 一 系列 混合 
了 分 配 和 释放 1000 字 节 栈 存 储 和 500 字 节 堆 存 储 的 请 求 。 比 较 本 章 中 描述 的 方法 和 一 个 从 空闲 空间 
同一 端 分 配 栈 和 堆 请 求 的 方法 ( 即 所 有 的 内 存 分 配 都 使 用 getmem) 。 找 出 一 个 如 果 不 从 两 端 分 配 栈 和 
堆 请 求 则 会 导致 内 存 碎片 的 请 求 序列 。 

9.4 这 里 描述 的 内 存 管理 系统 能 分 配 任意 小 数量 的 内 存 吗 ? 为 什么 能 或 为 什么 不 能 ? 

9.5 许多 艇 入 式 系 统 都 经 历 一 个 原型 阶段 ， 在 该 阶段 系统 建立 在 一 个 通用 的 平台 上 ; 一 个 最 终 阶 段 ， 在 
该 阶段 为 系统 设计 最 小 化 的 硬件 。 对 内 存 管理 来 说 ， 问 题 关 注 每 个 进程 需要 的 栈 的 大 小 。 修 改 程序 
代码 使 系统 能 测量 一 个 进程 使 用 的 最 大 栈 空间 并 在 进程 退出 时 报告 最 大 栈 空间 大 小 。 
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第 10 童 | 


Operating System Design: The Xinu Approach, Linksys Version 


高 级 内 存 管理 和 虚拟 内 存 


是 的 ， 我 会 从 我 的 记忆 里 擦 去 所 有 琐碎 的 记录 。 





一 一 威廉 莎士比亚 


10.1 引言 

前 面 的 章节 考虑 了 操作 系统 管理 计算 和 L/O 的 抽象 。 第 9 章 描 述 了 一 个 把 内 存 看 做 可 耗 尽 资 源 的 
低级 内 存 管理 工具 ， 讨 论 了 地 址 空间 、 程 序 段 和 管理 全 局 空闲 链表 的 函数 。 尽 管 它们 是 必要 的 ， 但 低 
级 的 内 存 管理 工具 并 不 能 满足 所 有 的 需求 。 

本 章 将 通过 介绍 高 级 的 工具 来 完成 对 内 存 管理 的 讨论 。 本 章 解 释 了 把 内 存 资源 划分 为 独立 子 集 的 
动机 ， 介 绍 了 一 个 允许 把 内 存 分 成 独立 缓冲 池 的 高 级 内 存 管理 机 制 ， 并 解释 了 如 何 分 配 和 使 用 一 个 池 
中 的 内 存 而 不 影响 其 他 池 中 内 存 的 使 用 。 本 章 还 介绍 了 虚拟 内 存 以 及 与 虚拟 内 存 相 关 的 硬件 是 如 何 工 
作 的 。 


10.2 分 区 空间 分 配 

第 9 章 描述 的 getmem 和 freemem 函数 组 成 了 一 个 基本 的 内 存 管 理 器 。 它 的 设计 没有 设 定 一 个 进程 
可 以 分 配 的 内 存 数量 的 上 限 ， 也 没有 尝试 “公平 地 ”分 配 空 闪 空间。 相反， 它 的 分 配 函 数 仅仅 使 用 先 
来 先 服务 的 方式 处 理 请 求 ， 直 到 没有 空闲 的 内 存 为 止 。 当 空闲 内 存 用 尽 后 ， 函 数 拒绝 后 续 的 请 求 ， 而 
不 是 阻塞 进程 或 等 待 内 存 释 放 。 虽 然 它 比 较 有 效 ， 但 全 局 的 分 配 策略 迫使 所 有 的 进程 争夺 相同 的 内 存 。 
这 会 导致 剥夺 一 一 一 个 或 多 个 进程 由 于 所 有 内 存 用 光 而 无 法 获得 内 存 。 因 此 ， 全 局 的 内 存 分 配方 案 并 
不 适合 操作 系统 的 所 有 部 分 。 

为 了 理解 为 什么 系统 不 能 依赖 全 局 分 配 ， 我 们 考虑 网 络 通信 软件 。 网 络 通信 中 数据 包 随 机 到 
达 。 由 于 网 络 应 用 程序 需要 时 间 来 处 理 数 据 包 ， 所 以 在 处 理 一 个 数据 包 时 额外 的 数据 包 也 可 能 会 
到 达 。 如 果 每 个 传 入 的 数据 包 都 放 在 一 个 内 存 缓 冲 区 中 ， 这 种 耗 尽 的 分 配 可 能 导致 灾难 。 传 人 的 
报 文 堆积 等 待 处 理 ， 而 且 每 一 个 都 占用 内 存 。 最 坏 的 情况 下 ， 所 有 的 可 用 空间 都 分 配给 数据 包 组 
冲 区 ,使 其 他 的 操作 系统 函数 没有 内 存 可 以 使 用 。 特 别 地 ， 如 果 磁 盘 L/O 使 用 内 存 ， 则 所 有 的 磁 
fit VO 将 中 断 直到 内 存 变 得 可 用 。 如 果 处 理 网 络 数据 包 的 程序 尝试 写 文件 ， 则 可 能 导致 死 锁 : 该 
进程 阻塞 等 待 磁盘 缓冲 区 ， 但 所 有 的 内 存 都 用 于 网 络 缓冲 区 并 且 在 磁盘 V/O 完成 前 没有 网 络 缓冲 
区 能 够 被 释放 。 

为 了 防止 死 锁 ， 高 级 内 存 管理 必须 为 把 空闲 内 存 划 分 为 独立 的 子 集 ， 并 确保 分 配 和 释放 一 个 子 集 
与 分 配 和 释放 其 他 子 集 相 互 独立 。 通 过 限制 特定 函数 可 以 使 用 的 内 存 数量 ， 系 统 可 以 确保 过 量 的 请 求 
不 会 导致 全 局 剥夺 。 此 外 ， 系 统 可 以 假设 分 配给 特定 函数 的 内 存 总 是 会 被 返回 ， 因 此 它 能 安排 挂 起 进 
程 直到 满足 它们 的 内 存 请 求 ， 从 而 消除 忙 等 待产 生 的 开销 。 分 区 不 能 保证 不 发 生死 锁 ， 但 它 确实 能 限 
制 由 于 一 个 子 系统 占有 另 一 个 子 系统 需要 的 内 存 而 产生 的 无 意识 的 死 锁 。 


10.3 缓冲 池 

我 们 使 用 缓冲 池 (buffer pool) 管理 器 来 处 理 内 存 划 分 问题 。 将 内 存 划 分 到 一 组 缓冲 池 中 。 每 个 绥 
冲 池 包 含 固定 数量 的 内 存 块 ， 缓 冲 池 中 的 每 一 个 内 存 块 大 小 是 一 样 的 。 缓 冲 区 (buffer) 这 个 术语 用 来 
反映 VO 程序 和 通信 软件 对 内 存 的 预期 使 用 量 〈 例 如 ， 磁 盘 缓冲 区 、 网 络 数据 包 缓冲 区 ) 。 

当 创建 缓冲 池 时 ， 内 存 空间 分 配 到 某 一 组 缓冲 区 中 。 一 且 已 经 分 配 了 一 个 缓冲 池 ， 缓 冲 池 中 的 组 
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冲 区 数目 就 不 能 增加 了 ， 缓 冲 区 大 小 也 不 能 改变 。 

每 个 缓冲 池 由 一 个 整数 来 标识 ， 这 个 整数 称 为 缓冲 池 标识 符 (pool identifier) 或 者 缓冲 池 ID 
(buffer pool ID) 。 与 Xinu 中 的 其 他 标识 符 一 样 ， 缓 冲 池 标识 符 用 来 作为 进入 缓冲 池 表 (buftab) 的 索 
引 。 一 旦 建立 了 一 个 缓冲 池 ， 进 程 就 可 以 使 用 缓冲 池 标 识 符 向 该 缓冲 池 请 求 分 配 缓冲 区 或 者 释放 之 前 
分 配 的 缓冲 区 。 分 配 和 释放 缓冲 区 的 请 求 不 需要 指定 缓冲 区 的 大 小 ， 因 为 缓冲 区 的 大 小 在 缓冲 池 创 建 
的 时 候 已 经 确定 了 。 

缓冲 池 机 制 与 低级 内 存 管理 器 的 不 同 之 处 在 于 它 采 用 了 同步 (synchronous) 机 制 。 也 就 是 说 ,一 
个 进程 在 请 求 分 配 缓冲 区 时 会 被 阻塞 ， 直 到 请 求 可 以 满足 才 继 续 执行 。 与 之 前 的 许多 例子 一 样 ， 同 步 
机 制 使 用 信和 号 量 来 实现 对 缓冲 池 的 访问 控制 。 每 个 缓冲 池 有 一 个 信号 量 。 分 配 缓冲 区 的 代码 调用 wait 
等 待 信号 量 。 如 果 缓 冲 池 中 的 缓冲 区 还 有 剩余 ， 则 调用 立即 返回 ; 如 果 没 有 ， 则 调用 会 被 阻塞 。 最 后 ， 
当 另 一 个 进程 把 自己 使 用 的 缓冲 区 释放 到 缓冲 池 时 ,信号 量 会 发 信号 通知 等 待 的 进程 获得 缓冲 区 并 继 
续 执行 。 

Xinu 系统 使 用 一 张 表 作 为 保存 缓冲 池 信 息 的 数据 结构 。 表 中 的 每 个 表 项 记录 了 缓冲 区 的 大 小 、 信 
号 量 ID 和 一 个 指向 链表 中 下 一 个 缓冲 区 的 指针 。 相 关 的 声明 可 以 在 bufpool. h 文件 中 找到 : 


/* bufpool.h */ 

#ifndef NBPOOLS 

#define NBPOOLS 20 /* Maximum number of buffer pools af 
#endif 


#ifndef BP_MAXB 


#define BP_MAXB 8192 /* Maximum buffer size in bytes Ey 

#endif 

#define BP_MINB 8 /* Minimum buffer size in bytes fd 

#ifndef BP MAXN 

#define BP MAXN 2048 /* Maximum number of buffers in a pool */ 

#endi f 

struct bpentry { /* Description of a single buffer pool */ 
struct bpentry *bpnext;/* pointer to next free buffer *f 
sid32 bpsem; /* semaphore that counts buffers */ 

Pd currently available in the pool */ 

uint32 bpsize; /* size of buffers in this pool ui 
F3 

extern struct bpentry buftab[];/* Buffer pool table */ 

extern bpid32 nbpools; /* current number of allocated pools ff 


结构 bpentry 定义 了 缓冲 池 表 buftab 中 表 项 的 内 容 。 缓 冲 池 中 的 缓冲 区 由 链表 形式 记录 。bpnext 
字段 用 于 指向 表 中 的 第 一 个 缓冲 区 。 信 号 量 bpsem 控制 缓冲 区 的 分 配 。 整 数 bpsize 表示 缓冲 区 的 
大 小 。 


10.4 分 配 缓冲 区 


Xinu 有 三 个 函数 提供 了 和 缓冲 池 有 关 的 接口 。 其 中 一 个 函数 是 mkpool， 它 用 来 创建 缓冲 池 并 获取 
缓冲 池 久 。 当 缓冲 池 创 建 之 后 ， 就 可 以 调用 getbuf 函数 来 获取 缓冲 区 ， 也 可 以 调用 freebuf 函数 来 释放 
缓冲 区 。 

getbuf 函数 就 像 名 字 所 表述 的 那样 工作 ， 它 等 待 信号 量 直到 有 一 个 缓冲 区 可 用 ， 然 后 从 链表 中 将 
第 一 个 缓冲 区 移 去 。 相 关 代码 在 getbuf. c 文件 中 可 以 找到 : 
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/* getbuf.c - getbuf */ 


#include <xinu.h> 


RA 


getbuf -- get a buffer from a preestablished buffer pool 
| irc gsc ey ce ps Sp men i, pp ig vy Se Md gid dD E Rs E e e p Nm d Gl i il at e ira 
*getbuf ( 
bpid32 poolid /* index of pool in buftab 
) 
intmask mask; /* saved interrupt mask 


} 


细心 的 读者 可 能 已 经 注意 到 ，getbuf 函数 并 不 直接 将 缓冲 区 的 地 址 返回 给 它 的 调用 者 ， 而 是 把 绥 
冲 池 ID 存储 在 分 配 空间 的 前 4 个 字 节 ， 只 返回 除 ID 以 外 的 地 址 。 从 调用 者 的 角度 看 ， 调 用 getbuf 后 返 
回 缓冲 区 的 地 址 ， 调 用 者 不 需要 知道 前 面 的 字 节 保存 了 缓冲 池 ID。 这 样 的 系统 是 透明 的 。 当 创建 缓冲 
池 的 时 候 ， 缓 冲 池 ID 保存 在 每 一 个 缓冲 区 中 额外 分 配 的 空间 中 。 当 释放 一 个 缓冲 区 的 时 候 ，freebutf K 
数 使 用 隐藏 的 缓冲 池 ID 来 确定 该 缓冲 区 是 属于 哪个 缓冲 池 。 当 缓冲 区 由 不 是 申请 该 缓冲 区 的 进程 返还 


struct bpentry *bpptr; /* pointer to entry in buftab 
struct bpentry *bufptr; /* pointer to a buffer 


mask - disable(); 

/* Check arguments */ 

if ( (poolid < 0 || poolid >= nbpools) ) ( 
restore (mask); 


return (char *)SYSERR; 


) 
bpptr - &buftab[poolid]; 


/* Wait for pool to have » 0 buffers and allocate a buffer */ 


wait (bpptr->bpsem) ; 
bufptr = bpptr-»bpnext; 


/* Unlink buffer from pool */ 

bpptr->bpnext = bufptr->bpnext; 

/* Record pool ID in first four bytes of buffer and skip */ 
*(bpid32 *)bufptr = poolid; 

bufptr = (struct bpentry *) (sizeof(bpid32) + (char *)bufptr); 


restore (mask); 
return (char *)bufptr; 





给 缓冲 池 时 ， 这 种 利用 隐藏 信息 来 识别 缓冲 池 的 方法 就 会 变 得 特别 有 用 。 


10.5 将 缓冲 区 返回 给 缓冲 池 


函数 freebuf 的 作 月 


找到 : 





*/ 
*/ 
*/ 


昌 是 将 缓冲 区 返回 给 分 配 缓冲 区 给 它 的 缓冲 池 。 相 关 代码 在 freebuf c 文件 中 可 以 


/* freebuf.c - freebuf */ 


#include <xinu.h> 
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E 
Fy 


/[* —(—————————————————————————————Á he oe eee 
* freebuf -- free a buffer that was allocated from a pool by getbuf 
i i c Sais SE eee ue) ao Rae ee eee E E Se ee ees 
xy 
syscall freebuf ( 
char *bufaddr /* address of buffer to return 

) 
{ 

intmask mask; /* saved interrupt mask 

struct bpentry *bpptr; /* pointer to entry in buftab 

bpid32 poolid; /* ID of buffer's pool 


mask - disable(); 


/* Extract pool ID from integer prior to buffer address */ 


bufaddr -= sizeof (bpid32) ; 
poolid = *(bpid32 *)bufaddr; 


if (poolid < 0 || poolid >= nbpools) { 


restore (mask) ; 
return SYSERR; 
} 


/* Get address of correct pool entry in table */ 


bpptr = &buftab[poolid] ; 


/* Insert buffer into list and signal semaphore */ 


( (struct bpentry *) bufaddr) ->bpnext 


= bpptr->bpnext; 


bpptr->bpnext = (struct bpentry *)bufaddr; 


signal (bpptr->bpsem) ; 
restore (mask); 
return OK; 


) 


在 分 配 缓冲 区 时 ，getbuf 函数 在 缓冲 区 地 址 的 前 四 个 字 节 记录 了 缓冲 池 ID, freebuf 将 缓冲 区 的 前 
四 个 字 节 还 原来 获得 缓冲 池 四， 之 后 对 缓冲 池 ID 进行 验证 。 若 验证 有 效 ， 则 getbuf 用 该 ID 来 找到 组 
冲 池 表 中 的 表 项 。 然 后 ， 将 返还 的 缓冲 区 链接 到 缓冲 区 的 链表 中 。 最 后 给 bpsem 缓冲 池 信和 号 量 发 信号， 


允许 其 他 进程 使 用 缓冲 区 。 
10.6 创建 缓冲 池 


PR mkbufpool 用 来 创建 了 一 个 新 的 缓冲 池 并 返回 其 ID, mkbufpool 有 两 个 参数 : 缓冲 区 的 大 小 和 


缓冲 区 的 数量 。 


/* mkbufpool.c - mkbufpool */ 


#include <xinu.h> 





O 根据 上 下 文理 解 应 该 是 freebuf 一 一 译 者 注 。 


* 


. 
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bpid32  mkbufpool( 


int32 bufsiz, /* size of a buffer in the pool */ 
int32 numbufs /* number of buffers in the pool*/ 
) 
( 
intmask mask; /* saved interrupt mask me 
bpid32 poolid; ./* ID of pool that is created aa 
struct bpentry *bpptr; ‘/* pointer to entry in buftab */ 
char *buf; /* pointer to memory for buffer */ 


mask - disable(); 
if (bufsiz«BP MINB || bufsiz>BP_MAXB 
|| numbufs<1 || mumbufs>BP_MAXN 
|| nbpools »- NBPOOLS) ( 
restore (mask); 
return (bpid32)SYSERR; 
} 
/* Round request to a multiple of 4 bytes */ 


bufsiz = ( (bufsiz + 3) & (-3) ); 


buf = (char *)getmem( numbufs * (bufsiz+sizeof(bpid32)) ); 
if ((int32)buf == SYSERR) { 
restore (mask); 
return (bpid32)SYSERR; 
} 
poolid = nbpools++; 
bpptr = &buftab[poolid]; 
bpptr->bpnext = (struct bpentry *)buf; 
bpptr->bpsize = bufsiz; 
if ( (bpptr->bpsem = semcreate(numbufs)) == SYSERR) { 
nbpools--; 
restore (mask); 
return (bpid32)SYSERR; 
} 
bufsiz+=sizeof(bpid32); 
for (numbufs-- ; numbufs»0 ; numbufs-- ) { 
bpptr = (struct bpentry *)buf; 
buf += bufsiz; 
bpptr->bpnext = (struct bpentry *)buf; 
} 
bpptr = (struct bpentry *)buf; 
bpptr->bpnext = (struct bpentry *)NULL; 
restore (mask); 
return poolid; 


) 


mkbufpool 首先 检查 函数 的 参数 。 如 果 缓 冲 区 大 小 超出 范围 ， 或 者 请 求 的 缓冲 区 数 是 负数 ， 或 者 缓 
冲 池 表 已 经 满 了 ， 那 么 mkbufpool 就 会 报错 。mkbufpool 计算 持 有 这 些 缓冲 区 所 需要 的 内 存 大 小 ， 调 用 
getmem 分 配 所 需要 的 内 存 。 如 果 内 存 分 配 成 功 ，mkbufpool 在 缓冲 池 表 中 分 配 并 填充 表 项 。mkbufpool 


创建 一 个 信号 量 ， 记 录 缓 冲 区 大 小 ， 在 链表 指针 bpnext 中 存储 分 配 内 存 的 地 址 。 


在 缓冲 池 表 的 表 项 初始 化 后 ，mkbufpool 开始 依次 访问 已 分 配 的 内 存 ， 并 把 内 存 块 分 成 一 组 组 的 缓 
冲 区 。mkbufpool 将 每 个 缓冲 区 链接 到 空闲 链表 中 。 注 意 ， 当 mkbufpool 创建 空闲 链表 时 ， 每 个 内 存 块 
的 大 小 包含 了 用 户 申请 的 缓冲 区 大 小 加 上 缓冲 池 ID 的 大 小 〈4 字 节 )。 因 此 ， 缓 冲 池 ID 存 人 内 存 块 
后 , 余下 的 充足 空间 是 留 给 用 户 申请 的 缓冲 区 。mkbufpool 在 创建 空闲 链表 后 ， 将 缓冲 池 ID 返回 给 调 


用 者 。 
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10.7 初始 化 缓冲 池 表 
函数 bufinit 用 来 初始 化 缓冲 池 表 。 代 码 很 简单 ， 可 以 在 bufinit c 文件 中 找到 : 


/* bufinit.c - bufinit */ 
#include <xinu.h> 


struct bpentry buftab[NBPOOLS]; /* buffer pool table 
bpid32 nbpools; 


wy 
status bufinit (void) 
{ 
nbpools = 0; 
return OK; 
} 


函数 bufinit 所 需要 做 的 只 是 设置 记录 分 配 缓冲 池 数 的 全 局 计数 器 。 在 示例 代码 中 ,缓冲 池 可 以 被 动 
态 分 配 ， 但 是 一 旦 分 配 缓冲 池 就 不 能 释放 。 通 过 扩展 缓冲 池 机 制 来 允许 动态 释放 缓冲 池 将 作为 练习 题 留 
给 读者 。 


10.8 虚拟 内 存 和 内 存 复 用 


大 多 数 大 型 计算 机 系统 都 使 用 虚拟 内 存 技术 ， 并 且 向 应 用 程序 提供 理想 化 的 内 存 视图 。 每 个 应 用 
程序 就 好 像 可 以 拥有 超过 物理 内 存 大 小 的 大 内 存 。 操 作 系统 对 所 有 进程 需要 使 用 的 物理 内 存 进 行 复 用 ， 
在 需要 的 时 候 把 所 有 或 者 部 分 应 用 程序 移 到 物理 内 存 中 。 也 就 是 说 ， 进 程 的 代码 和 数据 保存 在 辅助 
(或 称 为 二 级 ) 存储 器 (人 磁盘) ， 然 后 在 进程 执行 的 时 候 暂 时 将 其 移 人 主 存储 器 。 尽 管 很 少 有 艇 人 式 系 
统 需要 虚拟 内 存 ， 但 是 许多 处 理 器 都 带 有 虚拟 内 存 硬件 。 

虚拟 内 存 管理 系统 的 主要 设计 问题 是 复 用 的 形式 。 有 几 种 方法 已 经 在 使 用 : 

e Ko 


交换 (swapping) 是 指 当 调 度 器 在 执行 当前 的 计算 时 将 所 有 与 计算 相关 的 代码 和 数据 都 移 到 主 存 
储 器 中 。 交 换 方法 对 长 期 运行 的 程序 效果 最 好 ， 例 如 ， 文 字 处 理 软件 在 用 户 输入 文档 时 需要 一 直 运 行 ， 
程序 移 和 人 主 存储 髓 并 会 驻 留 很 长 一 段 时 间 。 

分 段 (segmentation) 是 指 在 需要 时 将 计算 相关 的 部 分 代码 和 数据 移 人 主 存储 器 。 可 以 想象 分 段 就 
是 把 每 个 函数 和 相关 变量 放 人 单独 的 段 里 。 当 调用 一 个 函数 的 时 候 ， 操 作 系统 把 含有 该 函数 的 段 装 人 
主 存储 器 中 。 较 少 使 用 的 函数 〈 例 如 ， 一 个 显示 错误 信息 的 函数 ) 放 在 辅助 存储 器 中 。 理 论 上 ， 分 段 
比 交 换 使 用 更 少 的 内 存 ， 因 为 分 段 允 许 在 需要 时 只 把 程序 的 一 部 分 装 入 内 存 中 。 虽 然 该 方法 直觉 很 好 ， 
但 很 少 有 操作 系统 使 用 动态 分 段 。 

AR (paging) 是 指 将 每 个 程序 分 成 许多 小 且 固 定 大 小 的 页 (page) 。 操 作 系 统 将 最 近 引 用 的 页 放 
在 主 存储 器 中 ， 把 其 他 页 的 副本 移 到 辅助 存储 器 中 。 需 要 时 到 辅助 存储 器 中 提取 页 ， 即 当 一 个 运行 的 
程序 引用 了 内 存单 元 ; 时 ， 内 存 硬 件 检查 包含 单元 ; 的 页 是 否 是 驻 存 的 (resident) ( 即 该 页 当前 在 内 存 
中 ) 。 如 果 该 页 不 是 驻 存 的 ， 则 操作 系统 将 进程 挂 起 〈 其 他 进程 可 以 执行 ) ， 然 后 向 磁盘 发 送 请 求 以 获 
取 所 需 页 的 副本 。 一 旦 该 页 被 放 人 主 存储 器 中 ， 操 作 系 统 就 让 挂 起 的 进程 处 于 就 绪 状 态 。 当 进程 重新 
尝试 引用 单元 i 时 ， 引 用 就 会 成 功 执行 。 


10.9 实地 址 空间 和 虚 地 址 空间 
在 许多 操作 系统 中 ， 内 存 管理 器 都 为 每 个 程序 提供 单独 的 地 址 空间 (address space) 。 也 就 是 说 ， 
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给 应 用 程序 分 配 从 0 ~ M -1 的 私有 内 存单 元 。 操 作 系统 需要 底层 硬件 把 每 个 地 址 空间 与 内 存单 元 进行 


映射 。 因 此 ， 当 一 个 应 用 程序 引用 了 和 零 地 址 yq Pena. — 

时 ， 引 用 映射 的 内 存单 元 与 进程 中 的 零 地 址 虚 地 址 Mete 777] PI 
是 一 致 的 。 当 另 一 个 应 用 程序 引用 了 零 地 址 空间 3 

时 ， 引 用 映射 的 是 另 一 个 内 存单 元 。 因 此 ， 0 as 

虽然 多 个 应 用 程序 可 以 引用 零 地 址 时 ， 但 是 unn c EN 2K 
每 个 引用 映射 到 单独 的 内 存单 元 并 且 应 用 程 《| | sed 
序 之 间 互 不 干扰 。 为 了 更 准确 地 表达 ， 我 们 r5 

使 用 术语 物理 地 址 空间 ( physical address o duo + 
space) 或 实地 址 空间 (real address space) 来 OT nerina] —— Li 
表示 内 存 硬 件 提 供 的 地 址 空间 ， 用 术语 虚 地 kl | 

址 空间 (virtual address space) 表示 一 个 程序 虚 地 址 








可 以 访问 的 地 址 空间 。 内 存 管理 器 将 一 个 或 TER BM EE, 
多 个 虚 地 址 空间 映射 到 底层 物理 地 址 空间 。 0 egg 

例如 ， 图 10-1 说 明了 3 A KICHOMI — 图 10-1 3 个 虚 地 址 空间 映射 到 一 个 物理 地 址 空间 

间 是 如 何 映射 到 3K 的 物理 地 址 空间 上 的 。 

从 运行 程序 的 角度 看 ， 只 有 在 虚 地 址 空间 中 的 地 址 才 可 以 引用 。 此 外 ， 因 为 操作 系统 负责 将 虚 地 
址 空间 中 的 地 址 映射 到 某 一 块 内 存 区 域 中 ， 所 以 运行 的 程序 不 可 能 偶然 地 读 取 或 覆盖 分 配给 其 他 运行 
程序 的 内 存 。 因 此 ， 提 供 虚 地 址 空间 服务 的 操作 系统 可 以 检测 编写 错误 并 预防 错误 的 发 生 。 可 以 归结 
如 下 : 

把 每 个 虚 地 址 空间 映射 到 单独 内 存 块 的 内 存 管理 系统 ， 可 以 防止 一 个 程序 读 取 或 者 写 入 

分 配给 其 他 程序 的 内 存 。 

在 图 10-1 中 ， 每 个 虚 地 址 空间 都 比 底层 物理 地 址 空间 小 。 但 是 ， 大 多 数 内 存 管 理 系统 都 允许 虚 地 
址 空间 比 机 器 上 的 内 存 空间 大 。 比 如 ， 一 个 按 需 换 页 系统 只 把 引用 的 页 放 在 主 存储 器 中 ,将 其 他 页 的 
副本 放 在 磁盘 上 。 


10.10 ”支持 按 需 换 页 的 硬件 


操作 系统 进行 虚 地 址 与 实地 址 之 间 映 射 的 操作 需要 硬件 支持 。 要 理解 其 原因 ， 首 先 要 注意 每 个 地 


hb, 包括 运行 时 产生 的 地 址 ， 都 需要 映射 。 [e ] 页 表 长 度 寄存 器 
因此 ， 如 果 一 个 程序 计算 一 个 值 C 然后 跳 转 


Gump) 到 单元 C， 那 么 内 存 系统 必须 把 C we emer 
射 到 对 应 的 实 内 存 地 址 。 只 有 硬件 单元 可 以 
高 效 地 进行 这 种 映射 。 e 
支持 按 需 换 页 的 硬件 包含 一 个 页 表 和 一 | 
个 地 址 转换 单元 。 页 表 常 驻 在 核心 内 存 中 ， 
每 个 进程 有 一 个 页 表 。 一 般 来 说 ,硬件 有 两 " Us 
个 寄存 器 ， 一 个 指向 当前 的 页 表 ， 另 一 个 标 | 
识 长 度 。 当 操作 系统 在 内 存 中 创建 一 个 页 表 — 
后 ， 操 作 系统 将 相关 数值 分 配给 寄存 器 并 开 ”进程 进程 2 进程 N 
启 按 需 换 页 。 类 似 地 ， 当 发 生 上 下 文 切换 时 ， 页 表 页 表 (有 效 ) 页 表 
操作 系统 改变 页 表 寄 存 器 并 指向 新 进程 的 页 ”图 10-2 ”内存 中 的 页 表 和 硬件 寄存 器 。 页 表 基 寄存 器 
表 。 图 10-2 解释 了 该 机 制 。 指向 了 在 给 定 的 时 间 使 用 的 页 表 





日 ”核心 内 存 不 能 被 换 出 ， 是 常 驻 内 存 块 。 一 一 译 者 注 。 


10. 11 使 用 页 表 的 地 址 翻译 


从 概念 上 说 ， 页 表 包 含 了 指向 内 存单 元 的 指针 数组 。 除 了 指针 外 ， 每 个 表 项 都 包含 1 位 用 来 确定 N71] 
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表 项 是 否 有 效 ( 即 ， 是 否 已 初始 化 ) 。 地 址 转换 (address translation) 硬件 使 用 当前 页 表 来 转换 内 存 地 
址 。 指 令 地 址 和 用 于 存 取 数 据 的 地 址 都 需要 地 址 转换 。 地 址 转换 包括 数组 查找 : 硬件 把 地 址 的 高 位 作 
AR (page number) ， 用 页 号 作为 页 表 的 索引 ， 根 据 对 应 的 指针 找到 内 存 中 页 的 单元 。 

实际 上 ， 一 个 页 表 项 并 不 包含 完整 的 内 存 指针 。 相 反 ， 页 的 起 始 内 存单 元 限制 在 低位 为 0 的 内 存 


单元 上 ， 页 表 项 省 略 了 地 址 的 低位 部 分 。 例 如 ， 假 设 一 
台 计 算 机 的 地 址 是 32 位 的 ， 使 用 4096 字 节 大 小 的 页 
( 即 ， 每 个 页 有 2° 字 节 )。 如 果 内 存 按 一 个 页 框 
(frame) 4096 字 节 大 小 来 划分 ， 那 么 每 个 页 框 的 起 始 地 
址 (页 框 第 一 个 字 节 的 地 址 ) 低位 起 的 12 fz ry 0。 
因此 ， 指 向 内 存 中 的 页 框 ， 页 表 项 只 需要 包含 高 位 的 
20 位 即 可 。 

为 了 转换 地 址 4， 硬 件 首先 把 地 址 4 的 高 位 作为 页 
表 的 索引 ， 然 后 从 页 驻 留 的 内 存 中 抽取 页 框 的 地 址 ， 最 
后 用 地 址 4 的 低位 作为 页 框 的 偏 移 值 。 图 10-3 说 明了 
地 址 转换 找到 物理 内 存 地 址 的 过 程 。 

我 们 的 方法 意味 着 每 个 地 址 转换 都 需要 访问 页 表 
( 即 , 一 次 内 存 访问 )。 但 是 ， 内 存 访问 的 开销 是 让 我 
们 不 能 容忍 的 。 为 使 地 址 转换 更 加 高 效 ， 处 理 器 采用 了 
一 个 专用 硬件 单元 ， 称 为 快 表 或 者 转换 后 援 缓冲 器 
(Translation Look- aside Buffer, TLB), TLB 缓存 了 最 近 
访问 的 页 表 项 ， 使 得 通过 TLB 查找 页 表 项 时 的 速度 要 
远 远 快 于 一 次 普通 内 存 访问 =。 有 了 TLB ， 处 理 器 的 操 
作 速 度 将 不 受 地 址 转换 开销 的 影响 。 


10. 12 页 表 项 中 的 元 数据 


(20 位 ) 
dla za 虚 地 址 (32 位 ) 


页 表 中 第 P 个 
页 表 项 (20 位 ) 


转换 结果 的 
Es 物理 地 址 (32 位 ) 


图 10-3 一 个 使 用 分 页 的 虚 地 址 转换 的 例子 





除了 页 框 指 针 外 ， 每 个 页 表 项 包含 了 3 位 硬件 和 操作 系统 使 用 的 元 数据 。 图 10-4 列 出 了 每 1 位 的 


含义 。 
名 字 


含义 





使 用 位 当 页 被 引用 〈 读 取 或 存 人 ) 时 ， 由 硬件 置 1 





修改 位 当 存 人 页 中 的 数据 发 生变 化 时 ， 由 硬件 置 1 








存在 位 该 位 由 操作 系统 设置 ， 表 示 页 是 否 在 内 存 中 


图 10-4 页 表 项 中 的 3 个 元 位 及 其 含义 


10. 13 . 按 需 换 页 以 及 设计 上 的 问题 


4% % (demand paging) 是 指 这 样 一 个 系统 ， 在 这 个 系统 中 操作 系统 把 所 有 进程 的 所 有 页 面 都 
放置 在 磁盘 上 ， 只 有 在 需要 某 个 页 面 时 〈 即 按 需 ) 将 其 读 人 和 人 内存。 为 了 支持 按 需 换 页 ， 需 要 特殊 的 处 
理 器 硬件 : 如 果 一 个 进程 试图 访问 一 个 不 在 内 存 中 的 页 面 时 ,硬件 必须 暂停 当前 指令 的 执行 ,发 出 缺 
页 (page fault) 异常 信号 来 通知 操作 系统 。 当 缺 页 异常 发 生 时 ， 操 作 系统 找到 内 存 中 尚未 使 用 的 页 框 ， 
将 进程 需要 的 页 面 从 磁盘 读 入 ， 然 后 指示 处 理 器 从 引起 缺 页 异常 的 指令 处 恢复 执行 。 





© TLB 使 用 内 容 可 寻 址 存储 器 ( Content- Addressable Memory, CAM) 来 实现 高 速 访问 。 
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当 计 算 机 刚刚 启动 时 ， 内 存 相 对 比较 空闲 ， 寻 找 空闲 页 框 比较 容易 。 然 而 ， 最 终 内 存 中 的 所 有 页 
框 都 会 被 填充 ， 此 时 操作 系统 必须 从 中 选 出 一 个 页 框 ， 将 页 面 内容 写 回 磁盘 〈 如 果 页 面 已 被 修改 ) , 
获取 新 的 页 面 ， 并 相应 地 修改 页 表 。 如 何 选择 这 个 写 回 磁盘 的 页 面 ， 是 操作 系统 设计 者 所 面临 的 一 个 
关键 问题 。 

与 分 页 设计 相关 的 问题 在 于 页 面 和 进程 之 间 的 关系 。 当 进程 产生 一 个 缺 页 异常 时 ,操作 系统 应 
该 从 进程 全 的 页 面 中 选择 一 个 页 面 写 回 磁盘 ， 还 是 从 别 的 进程 中 选择 ? 在 从 磁盘 读 取 一 个 页 面 期 间 ， 
操作 系统 可 以 运行 另 一 个 进程 ， 此 时 操作 系统 如 何 保证 至 少 某 个 进程 有 足够 多 的 页 面 来 运行 ， 而 不 会 
产生 缺 页 异常 ~? 应 该 锁定 一 些 页 面 ， 让 它们 一 直 在 内 存 中 吗 ? 如 果 需 要 ， 应 该 锁定 哪些 页 面 ? 页 面 
选择 策略 如 何 与 调度 策略 等 其 他 策略 交互 9 例如 ， 操 作 系统 是 否 应 该 保证 每 个 高 优先 级 进程 的 一 个 最 
小 驻 留 内 存 的 页 面 数目 ”如 果 操 作 系 统 允 许 进程 共享 内 存 ， 应 该 对 这 些 共享 的 页 面 应 用 什么 策略 ? 

在 设计 分 页 系统 时 有 一 个 有 趣 的 权衡 。 为 了 减 小 分 页 开销 和 进程 感受 到 的 延迟 ， 可 以 在 进程 运行 
时 让 它 独占 最 大 数量 的 物理 内 存 。 然 而 ， 很 多 进程 都 是 VO 密集 型 的 ， 这 意味 着 一 个 进程 很 可 能 会 阻 
寨 以 等 待 VO 完成 。 当 一 个 进程 阻塞 时 ， 如 果 另 一 个 进程 处 于 就 绪 状 态 并 且 操 作 系 统 可 以 进行 上 下 文 
切换 ， 那 么 就 能 够 最 大 限度 地 提高 总 体 性 能 。 也 就 是 说 ， 可 以 通过 让 很 多 进程 处 于 就 绪 状 态 来 增加 
CPU 的 使 用 率 和 总 体 吞 吐 量 。 因 此 ， 内 存 管 理 问题 就 产生 了 : 应 该 给 一 个 进程 大 量 的 内 存 页 框 ， 还 是 
应 该 让 很 多 进程 分 享 内 存 ? 


10.14 ”页面 替 换 和 全 局 时 钟 算法 


人 们 已 经 提出 并 尝试 了 很 多 种 页 面 替换 策略 ， 包 括 : 

© 最 近 最 少 使 (LRU)。 

e 最 不 频繁 使 (LFU)。 

© 先进 先 出 (FIFO)。 

有 趣 的 是 ， 人 们 已 经 发 现 了 一 个 可 证 明 是 最 佳 的 替换 策略 ， 它 称 为 贝 菜 迪 最 佳 页 面 蔡 换算 法 
( Belady' s optimal page replacement algorithm) 。 该 策略 选择 一 个 在 未 来 最 长 时 间 内 不 会 被 访问 的 页 面 进 
行 替 换 。 显 然 ， 要 实现 该 算法 是 完全 不 现实 的 ， 因 为 操作 系统 无 法 预知 页 面 在 未 来 的 使 用 情况 。 尽 管 
如 此 ， 贝 莱 迪 算法 还 是 为 研究 人 员 提供 了 一 个 标杆 ， 用 以 衡量 替换 策略 的 好 坏 。 

就 实际 的 系统 而 言 ， 有 一 个 算法 已 经 成 为 页 面 蔡 换算 法 事实 上 的 标准 ， 它 称 为 全 局 时 钟 算法 
(global clock) 或 二 次 机 会 算法 (second chance) ， 该 算法 被 设计 为 MULTICS 操作 系统 的 一 部 分 ， 具 有 
相对 较 小 的 开销 。 全 局 指 的 是 所 有 进程 相互 竞争 〈 换 名 话说 ， 当 进程 开发 生 缺 页 异常 时 ， 操 作 系统 可 
以 从 另 一 个 进程 了 选择 替换 页 框 ) 。 该 算法 另 一 个 名 字源 于 全 局 时 钟 算法 在 回收 一 个 页 框 之 前 ， 会 给 每 
个 使 用 过 的 页 框 “第 二 次 机 会 ”。 

全 局 时 钟 算 法 在 发 生 缺 页 异常 时 执行 。 该 算法 维护 一 个 指针 ， 该 指针 对 所 有 内 存 中 的 页 框 进行 扫 
描 ， 直 到 找到 一 个 空闲 的 页 框 。 算 法 下 一 次 运行 时 ， 会 从 上 一 次 结束 位 置 的 下 一 个 页 框 继续 。 

为 了 确定 是 否 选择 某 个 页 框 ， 全 局 时 钟 算法 检查 页 框 的 页 表 中 的 Use 位 和 Modify 位 。 如 果 Use/ 
Modify 位 的 值 是 (0，0)， 全 局 时 钟 算法 就 选择 这 个 页 框 ; 如 果 是 (1, 0), 全 局 时 钟 算法 重 设 它们 为 


(0，0) ， 并 跳 过 这 个 页 框 ; 如 果 是 (1，1)， 全 局 时 钟 将 其 修改 为 (1，0)， 跳 过 该 页 框 ， 同 时 保存 一 


份 已 修改 位 的 副本 ， 用 来 判断 页 面 是 否 被 修改 过 。 在 最 坏 情况 下 ， 全 局 时 钟 算法 需要 扫描 所 有 的 页 框 
两 次 ， 才 能 回收 一 个 页 框 。 

实际 上 ， 大 多 数 实现 使 用 一 个 独立 的 进程 来 运行 全 局 时 钟 算法 (这样 时 钟 进程 可 以 进行 磁盘 I 
0)。 此 外 ， 全 局 时 钟 算法 并 不 在 找到 一 个 页 框 后 就 立刻 停止 。 相 反 ， 该 算法 继续 运行 ， 收 集 候选 页 面 
的 集合 。 收 集 这 个 集合 的 目的 在 于 使 后 续 的 缺 页 异常 处 理 可 以 很 快 完成 ， 避 免 频繁 运行 全 局 时 钟 算法 
的 开销 ( 即 ， 避 免 频 繁 的 上 下 文 切换 开销 )。 





O ”如果 内 存 中 的 页 框 数 不 够 ， 那 么 分 页 系统 就 会 发 生 拌 动 现象 ， 意 思 是 缺 页 异常 发 生 的 频率 如 此 之 高 ， 以 至 于 系 
统 全 部 时 间 都 花 在 换 页 上 ， 每 个 进程 需要 花费 很 长 的 时 间 段 来 等 待 页 面 变 得 可 用 。 
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10.15 WA 

虽然 地 址 空间 管理 和 虚拟 内 存 子 系统 包含 了 操作 系统 大 量 的 代码 ， 但 该 问题 最 具 智 慧 的 方面 在 于 
分 配 策略 的 选择 和 随 之 而 来 的 权衡 。 允 许 每 个 子 系统 分 配 任意 数量 的 内 存 ， 最 大 限度 地 提高 了 灵活 性 ， 
避免 子 系统 在 还 有 内 存 剩余 的 时 候 无 法 继续 运行 的 问题 。 内 存 分 区 提供 了 最 大 程度 的 保护 ， 避 免 一 个 
子 系统 被 另 一 个 子 系统 抢占 的 问题 。 因 此 ， 内 存 管理 存在 灵活 性 和 保护 之 间 的 权衡 问题 。 

尽管 经 历 了 多 年 的 研究 ， 人 们 却 没有 提出 一 个 通用 的 解决 方案 ， 权 衡 没 有 量化 ， 也 不 存在 通用 的 
设计 准则 。 类 似 地 ， 尽 管 虚拟 内 存 系统 经 过 了 多 年 的 研究 ， 但 仍 没 有 一 个 按 需 换 页 系统 能 在 小 内 存 上 
很 好 地 运行 。 幸 运 的 是 ， 经 济 和 科技 的 发 展 使 得 很 多 与 内 存 管 理 相关 的 问题 变 得 无 关 紧要 : 动态 随机 
存储 器 (DRAM) 芯片 密度 高 速 增长 ， 使 得 大 内 存 变 得 相当 便宜 。 因 此 ， 计 算 机 制造 商 为 新 产品 配备 
了 远 多 于 过 去 产品 的 内 存 ， 使 得 操作 系统 不 再 需要 使 用 按 需 换 页 ， 从 而 完全 避免 了 内 存 管理 的 问题 。 


10.16 总 结 


低层 内 存 分 配 机 制 把 所 有 空闲 内 存 看 做 一 个 单一 的 、 可 耗 尽 的 资源 。 高 层 内 存 管理 机 制 允许 将 内 
存 分 为 独立 的 区 域 ， 保 证 单个 子 系统 不 会 用 尽 所 有 的 可 用 内 存 。 

Xinu 的 高 层 内 存 管理 函数 使 用 缓冲 池 范 式 ， 在 这 个 范式 中 ,给 每 个 缓冲 池 分 配 一 组 固定 的 缓冲 
区 。 一 且 建 立 缓 冲 池 ， 一 组 进程 便 可 以 动态 地 分 配 和 释放 缓冲 区 。 缓 冲 池 接口 只 支持 同步 访问 : 一 个 
进程 将 阻塞 ， 直 到 缓冲 池 可 用 。 

大 型 操作 系统 使 用 虚拟 内 存 机 制 来 为 应 用 程序 进程 分 配 独立 的 地 址 空间 。 使 用 最 广泛 的 虚拟 内 存 
机 制 一 一 分 页 ， 将 地 址 空间 分 为 固定 大 小 的 页 ， 并且 按 需 加 载 页 面 。 分 页 需要 硬件 的 支持 ， 因 为 每 个 
内 存 引 用 都 需要 经 过 从 虚拟 地 址 到 相应 物理 地 址 的 映射 。 


练习 

10.1 设计 一 个 新 的 getmem 函数 ,使 其 包含 getbuf。 提 示 : 允许 用 户 从 之 前 分 配 的 内 存 块 中 进行 子 分 配 。 

10.2 函数 mkbufpool 生成 一 个 缓冲 池 中 所 有 缓冲 区 的 链表 。 试 解释 如 何 修 改 其 代码 ， 使 该 函数 只 分 配 内 
存 ， 并 仅 在 调用 getbuf 需要 分 配 新 缓冲 区 时 才 把 缓冲 区 链接 起 来 。 

10.3 函数 freebuf 比 freemem 更 高 效 吗 ? 请 解释 你 的 答案 。 

10.4 调整 缓冲 池 分 配 机 制 ， 使 得 能 够 对 缓冲 池 进 行 回收 。 

10.5 缓冲 池 的 现 有 实现 在 缓冲 区 前 的 内 存 中 隐 含 了 缓冲 池 ID。 重 写 函 数 freebuf 使 得 不 再 需要 这 个 缓冲 池 
ID。 请 保证 你 的 freebuf 能 够 检测 无 效 的 地 址 〈 换 句 话 说， 除非 缓冲 区 是 之 前 从 该 缓冲 池 分 配 的 ， 和 否 
则 不 会 将 缓冲 区 释放 回 缓冲 池 )。 

10.6 假定 某 个 处 理 器 支持 分 页 。 请 描述 能 实现 保护 一 个 进程 的 栈 不 被 其 他 进程 访问 的 分 页 硬件 ， 即 使 并 
未 实现 按 需 换 页 ( 即 所 有 分 页 都 驻 留 在 内 存 中 ， 不 进行 页 面 替 换 ) 。 

10.7 实现 10.6 题 所 设计 的 方案 ， 保 护 Xinu AYRE. 
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11.1 引言 

第 8 章 讲述 了 一 个 底层 消息 传递 机 制 ， 允 许 一 个 进程 直接 向 另 一 个 进程 传递 消息 。 尽 管 底层 消息 
传递 系统 提供 了 一 个 有 用 的 功能 ， 但 它 并 不 能 指定 多 个 接收 方 ， 也 不 能 让 一 个 进程 参与 而 不 干扰 多 个 
消息 交换 的 过 程 。 

本 章 通过 引入 一 个 高 层 消息 传递 机 制 来 完成 关于 消息 传递 的 讨论 。 该 机 制 提供 一 个 缓冲 消息 交换 
的 同步 接口 ， 允 许 任意 一 个 进程 的 子 集 传递 消息 ， 而 不 影响 其 他 进程 。 本 章 还 引入 了 独立 于 进程 存在 
的 命名 会 合 点 的 概念 。 该 机 制 的 实现 依赖 于 第 10 章 所 讲述 的 缓冲 池 机 制 。 


11.2 进程 间 通 信和 端口 

Xinu 使 用 进程 间 通 信 端 口 (inter- process communication port) 来 指定 会 合 点 ， 即 进程 可 以 进行 消息 
交换 的 地 方 。 通 过 端口 进行 消息 交换 不 同 于 第 8 章 讲述 的 进程 到 进程 的 消息 传递 ， 因 为 端口 允许 暂 存 
多 个 待 发 消息 ， 并 且 访 问 它 们 的 进程 会 被 阻塞 ， 直 到 请 求 可 以 满足 。 每 个 端口 配置 为 可 以 暂 存 一 定数 
量 的 消息 ， 每 个 消息 占用 一 个 32 位 的 字 。 当 一 个 进程 产生 一 条 消息 时 ， 可 以 使 用 函数 ptsend 将 消息 发 
送 到 某 个 端口 。 消 息 以 先进 先 出 (FIFO) 的 顺序 存储 在 端口 中 ， 当 消息 发 送 后 ， 该 进程 便 可 继续 运 
行 。 在 任何 时 候 ， 进 程 都 可 以 使 用 函数 ptrecv 从 某 个 端口 接收 下 一 条 消息 。 

消息 发 送 和 接收 是 同步 的 。 只 要 端口 还 有 剩余 空间 ， 发 送 方 就 可 以 无 延迟 地 和 暂 存 一 条 消息 。 然 而 ， 
当 端口 存 满 销 息 时 ， 每 个 发 送 消息 的 进程 都 将 阻塞 ， 直 到 有 消息 移 除 从 而 腾 出 空间 。 类 似 地 ， 如 果 一 
个 进程 试图 从 一 个 空 端 口 接收 请 息 ， 它 将 被 阻塞， 直到 有 消息 到 达 。 进 程 的 请 求 也 是 以 先 到 先 得 的 方 
式 进 行 。 例 如 ， 如 果 多 个 进程 同时 等 待 一 个 空 端口 ， 那 么 在 消息 到 达 时 等 待 时 间 最 长 的 进程 将 接收 到 
该 消息 。 类 似 地 ， 如 果 多 个 进程 试图 发 送 消息 时 被 阻塞 ， 那 么 当 端口 空间 可 用 时 ， 等 待 时 间 最 长 的 进 
程 将 被 允许 继续 发 送 消息 。 


11.3 端口 实现 


每 个 端口 由 一 个 暂 存 消息 的 队列 和 两 个 信和 号 量 组 成 。 其 中 一 个 信和 号 量 管理 生产 者 ， 阻 塞 任何 试图 
往 满 端口 发 送 消息 的 进程 ; 另 一 个 信和 号 量 管理 消费 者 ， 阻 塞 任何 试图 从 空 端 口 接收 消息 的 进程 。 

由 于 端口 可 以 动态 创建 ， 所 以 任何 时 候 在 所 有 端口 上 等 待 的 消息 总 数 是 不 确定 的 。 虽 然 每 条 消息 
都 很 小 〈 仅 有 一 个 字 长 ) ， 但 必须 限制 所 有 端口 消息 队列 总 共 需 要 的 空间 ， 以 免 端 口 函 数 用 尽 空闲 内 
存 。 为 了 确保 限制 总 共 使 用 的 空间 ， 端 口 函 数 分 配 固定 数量 的 结 点 ， 用 来 存放 待 发 消息 ， 并 让 所 有 端 
口 共享 这 些 结 点 。 开 始 ， 这 些 消息 结 点 链接 到 由 变量 ptfree 指定 的 空闲 链表 ; 函数 ptsend 从 空闲 链表 
中 取出 一 个 结 点 ， 将 消息 存 人 其 中 ， 并 将 其 添加 到 消息 发 往 端 口 的 队列 中 ; 函数 ptrecv 从 指定 的 端口 
获取 下 一 条 消息 ， 将 包含 该 消息 的 结 点 释放 回 空闲 链表 中 ， 然 后 将 消息 传递 给 函数 调用 者 。 

在 文件 ports. h 中 ， 结 构 pinode 定义 了 一 个 包含 一 条 消息 的 结 点 的 内 容 。 结 构 pinode 中 的 两 个 字段 
是 意料 之 中 的 : ptmsg 保存 32 位 的 消息 ，ptnext 指向 下 一 个 消息 结 点 。 

结构 ptentry 定义 了 端口 表 项 的 内 容 。ptssem 和 ptrsem 字段 分 别 包含 了 控制 发 送 和 接收 的 信和 号 量 
ID, ptstate 字段 指示 该 项 是 否 正在 使 用 ，ptmaxcnt 字段 指定 了 任何 时 候 允 许 暂 存在 该 端口 中 的 最 大 消息 
数目 。pthead 和 pttail 字段 分 别 指向 消息 链表 的 第 一 个 和 最 后 一 个 结 点 。 对 于 序列 号 字段 ptseq， 我 们 将 
稍 后 讨论 。 
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/* ports.h - isbadport */ 


#define NPORTS 30 /* maximum number of ports y 
#define PT_MSGS 100 /* total messages in system wy 
#define PT_FREE /* port is free #7 
#define PT LIMBO 2 /* port is being deleted/reset */ 
#define PT ALLOC 3 /* port is allocated *7 
struct ptnode { /* node on list of messages */ 
uint32 ptmsg; /* a one-word message */ 
struct ptnode  *ptnext; /* ptr to next node on list *y 

F; 
struct ptentry { ./* entry in the port table "y 
sid32 ptssem; :/* sender semaphore ay 
sid32 ptrsem; /* receiver semaphore *y 
uintl6 ptstate; /* port state (FREE/LIMBO/ALLOC) */ 
uint16 ptmaxcnt; /* max messages to be queued x 
int32 ptseq; /* sequence changed at creation */ 
struct ptnode  *pthead; /* list of message pointers xy 
struct ptnode  *pttail; /* tail of message list wy 

}; 
extern struct ptnode *ptfree; /* list of free nodes */ 
extern struct ptentry porttab[]; /* port table ai 
extern int32 ptnextid; /* next port ID to try when xf 
y looking for a free slot xy 


#define isbadport (portid) 


11.4 ”端口 表 初 始 化 

由 于 之 前 初始 化 代码 是 在 实现 基本 操作 之 后 才 设计 的 ， 所 以 我 们 总 是 在 讨论 其 他 函数 之 后 才 讨论 
初始 化 函数 。 然 而 ， 对 于 端口 而 言 ， 我 们 要 先 讨论 初始 化 ， 因 为 这 样 有 助 于 理解 其 他 函数 。 文 件 
ptinit. c 包含 了 初始 化 端口 的 代码 和 端口 表 的 声明 。 全 局 变量 ptnextid 是 数组 porttab 的 一 个 索引 ， 给 出 
了 在 需要 新 端口 时 进行 搜索 的 起 始 位 置 。 初 始 化 代码 由 以 下 三 个 步骤 组 成 : 标记 所 有 端口 是 空闲 的 ; 
构造 空闲 结 点 的 链表 ; 初始 化 ptnextid。 为 了 创建 空闲 链表 ，Pptinit 使 用 函数 getmem 分 配 一 块 内 存 ， 然 


( (portid)<0 || (portid)>=NPORTS ) 





后 遍历 该 内 存 ， 将 单独 的 消息 结 点 链接 起 来 ， 组 成 空闲 链表 。 
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/* ptinit.c ~ ptinit */ 


#include «xinu.h» 


struct ptnode  *ptfree; /* list of free message nodes *J 
struct ptentry porttab[NPORTS]; /* port table Lari 
int32 ptnextid; /* next table entry to try * 
/* Limes —————————— MÀ i i 
* ptinit -- initialize all ports 
L————————————————— es sin ee ie ee € HÀ Ó 
#/ 
syscall ptinit( 
int32 maxmsgs /* total messages in all ports */ 
) 
{ 
int32 i; /* runs through port table *f 
struct ptnode  *next, *prev; /* used to build free list ia 
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ptfree = (struct ptnode *)getmem(maxmsgs*sizeof (struct ptnode) ) ; 
if (ptfree == (struct ptnode *)SYSERR) { 
panic("pinit - insufficient memory") ; 


/* Initialize all port table entries to free */ 
for (i=0 ; i<NPORTS ; i++) 


porttab[i].ptstate 
porttab[i].ptseq - 


PT FREE; 


ola 


} 
ptnextid = 0; 


/* Create free list of message pointer nodes */ 


for ( prev=next=ptfree ; --maxmsgs > 0 ; prev=next ) 
prev->ptnext = ++next; 
'prev-»ptnext = NULL; 
return (OK) ; 


11.5 端口 创建 

端口 创建 过 程 就 是 分 配 端口 表 中 空 闪 项 的 过 程 。 晴 数 ptereate 返回 一 个 端口 标识 符 (port Identifier, 
port ID) 给 函数 调用 者 。 函 数 ptereate 用 一 个 参数 来 指定 端口 允许 暂 存 的 最 大 消息 数目 。 因 此 ， 在 一 个 
端口 创建 后 ， 调 用 它 的 进程 可 以 确定 在 该 端口 上 引起 发 送 方 阻塞 之 前 能 够 暂 存 的 消息 数目 。 


/* ptcreate.c - ptcreate */ 


#include <xinu.h> 


I eRe E he ee 
* ptcreate -- create a port that allows "count" outstanding messages 
fassa ee en TO si a icles igi tp etc ti nis et snd ie iat 
*/ 

syscall ptcreate( 

int32 count 
) 
f 
intmask mask; /* saved interrupt mask f 
int32 24 /* counts all possible ports */ 
int32 ptnum; /* candidate port number to try */ 
struct ptentry *ptptr; /* pointer to port table entry */ 


mask = disable(); 
if (count < 0) { 
restore (mask) ; 


return (SYSERR) ; 
} 
for (i=0 ; i«NPORTS ; i++) { /* count all table entries xj 
ptnum - ptnextid; /* get an entry to check £z 
if (++ptnextid >= NPORTS) { 
ptnextid = 0; /* reset for next iteration */ 


/* Check table entry that corresponds to ID ptnum */ 
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ptptr- &porttab[ptnum] ; 
if (ptptr->ptstate == PT_FREE) { 
ptptr->ptstate = PT_ALLOC; 
ptptr->ptssem = screate(count) ; 
ptptr->ptrsem = screate(0); 
ptptr->pthead = ptptr->pttail = NULL; 
ptptr->ptseq++; 
ptptr->ptmaxcnt = count; 
restore (mask) ; 
return (ptnum) ; 


} 

restore (mask) ; 

return (SYSERR) ; 
} 


11.6 向 端口 发 送 消息 

发 送 和 接收 消息 是 端口 最 基本 的 操作 ， 它 们 分 别 由 函数 pisend 和 ptrecv 实现 。 这 两 个 函数 都 需要 
调用 者 通过 传递 端口 ID 作为 参数 来 指定 要 进行 操作 的 端口 。 函 数 ptsend 为 等 待 在 端口 上 的 进程 添加 一 
条 消息 ， 它 等 待 端 口 有 空闲 空间 ， 将 参数 指定 的 消息 入 队列， 给 接收 者 发 出 信号 量 以 指示 另 一 条 消息 
可 用 ， 然 后 返回 。 该 函数 的 代码 在 文件 ptsend.e 中 。 


/* ptsend.c - ptsend */ 


#include <xinu.h> 


/* rp IP ————— cecco accanita ina 
* ptsend -- send a message to a port by adding it to the queue 
d TOPI I PI Ee OI a Cen mae vq uie aS iiia gU AM i 337 Qe Gp zu. que duo ciui qui QU cus Gud Qs css i ud is us. f uu GE am EN Zn don MS ANN QUE aqu a din 
wy 
syscall ptsend( 
int32 portid, /* ID of port to use £ 
umsg32 msg /* message to send * } 
) 
{ 
intmask mask; /* saved interrupt mask A 
struct ptentry *ptptr; /* pointer to table entry AA 
int32 seq; /* local copy of sequence num.  */ 
struct ptnode  *msgnode; /* allocated message node X 
struct ptnode  *tailnode; /* last node in port or NULL È 


mask = disable(); 
if ( isbadport(portid) || 
(ptptr= &porttab[portid])-»ptstate != PT ALLOC ) { 
restore (mask); 
return SYSERR; 


/* Wait for space and verify port has not been reset */ 


Seq = ptptr->ptseg; /* record orignal sequence */ 
if (wait(ptptr->ptssem) == SYSERR 
|| ptptr-»ptstate !- PT ALLOC 
|| ptptr->ptseq != seq) ( 
restore (mask) ; 
return SYSERR; 
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if (ptfree == NULL) { 
panic("Port system ran oüt of message nodes"); 


} 


/* Obtain node from free list by unlinking */ 


msgnode = ptfree; /* point to first free node */ 
ptfree = msgnode->ptnext; /* unlink from the free list*/ 
msgnode->ptnext = NULL; /* set fielas in the node tal. 


msgnode->ptmsg = msg; 
/* Link into queue for the specified port */ 


tailnode = ptptr->pttail; 


if (tailnode == NULL) { /* queue for port was empty */ 
ptptr->pttail = ptptr->pthead = msgnode; 
else ( /* insert new node at tail */ 


tailnode->ptnext = msgnode; 
ptptr->pttail = msgnode; 
} 
signal (ptptr->ptrsem) ; 
restore (mask); 
return OK; 
} 


函数 ptsend 最 开始 的 代码 几乎 没 检 查 参 数 portid 是 否 指 定 了 一 个 有 效 的 端口 D。 接 下 来 发 生 的 

事情 更 有 趣 。 函 数 ptsend 保存 一 份 序列 号 ptseq 的 临时 副本 ， 然 后 处 理 这 个 请 求 。 它 在 发 送 方 信号 量 
上 等 等， 然后 确认 端口 仍然 是 被 分 配 状态 ,并且 序 列 号 和 保存 的 临时 副本 匹配 。 该 函数 此 种 确认 端 
HID 的 行为 看 上 去 有 些 古 怪 ， 然 而 ， 如 果 ptsend 执行 时 ， 端 口 已 满 ， 则 调用 它 的 进程 会 被 阻塞。 
且 ， 在 进程 阻塞 等 待 发 送 消息 期 间 ， 端 口 可 能 被 删除 〈 甚 至 重新 创建 ) 。 为 了 理解 序列 号 的 作用 ， 
以 回想 函数 ptereate 的 行为 : 它 在 创建 端口 时 增加 这 个 序列 号 。 这 里 的 核 ， B ie 
对 函数 wait. 的 调用 不 是 因为 端口 被 删除 而 结束 的 。 如 果 是 因为 端口 被 删除 ， 那 么 这 个 端口 要 么 保持 
未 使 用 的 状态 ， es 因此 ， 在 调用 wait 之 后 的 代码 需要 确认 原来 的 端口 仍然 保 
持 在 已 分 配 状 态 

函数 ptsend 将 消息 以 先进 先 出 的 顺序 信 队 。 队列 非 空 时 ， 该 函数 依赖 pttail 指向 队列 的 最 后 一 个 结 
点 。 而 且 ，ptsend 总 是 将 pttail 指向 添加 到 该 链表 的 新 结 点 。 最 后 ， 在 将 新 消息 添加 到 队列 后 ，ptsend 
给 接收 者 发 送信 号 量 ， 以 便 接收 者 能 够 收 到 该 消息 

与 前 面 的 代码 一 样 ， 下 面 的 不 变 式 能 帮助 程序 员 理 解 它 的 实现 : 

当 n 条 消息 在 端口 中 等 待 时 ， 信 号 量 ptrsem 有 非 负 的 计数 n; 当 n 个 进程 在 等 待 消息 时 ， 
信号 量 ptrsem 有 负 的 计数 -ms 

对 函数 panic 的 调用 更 值得 一 说 ， 因 为 它 首 次 出 现在 代码 中 。 在 我 们 的 设计 中 ， 消 息 结 点 耗 尽 是 一 
个 灾难 性 的 错误 ， 系 统 不 能 从 中 恢复 。 这 表示 在 消息 结 点 上 为 了 防止 端口 用 尽 所 有 空闲 内 存 而 设置 某 
个 限制 ， 这 种 做 法 是 不 能 完全 解决 问题 的 。 也 许 使 用 端口 的 程序 没 能 正确 运行 ， 也 许 用 户 并 没有 出 错 ， 
但 系统 却 不 能 处 理 一 个 合理 的 请 求 。 我 们 没有 办 法 知道 是 哪 种 情况 。 在 这 种 情况 下 ， 相 对 于 尝试 继续 
执行 ， 报 告 出 错 并 停止 执行 通常 是 比较 好 的 做 法 。 函 数 panic 用 来 应 对 这 样 的 情况 ， 它 输出 指定 的 错误 
消息 ， 然 后 停止 处 理 。 如 果 用 户 选 择 继 续 执 行 ， 对 panic 的 调用 可 以 返回 ,但 更 多 情况 下 用 户 会 重启 系 
统 或 者 更 换 程序 。( 本 章 练 习 中 提出 了 处 理 这 个 问题 的 替代 方案 。) 


11.7 从 端口 接收 消息 
函数 ptrecv 实现 了 一 个 基本 的 消费 者 操作 : 从 指定 端口 移 除 一 条 消息 ， 并 将 它 返 回 给 调用 者 。 函 
数 代码 在 ptrecv. c fi, 





/* ptrecv.c - ptrecv */ 


#include <xinu.h> 


RY 
uint32 ptrecv( 
int32 portid 


intmask mask; 

struct ptentry *ptptr; 
int32 seq; 

umsg32 msg; 

struct ptnode  *msgnode; 


mask - disable(); 
if ( isbadport(portid) || 
(ptptr- &porttab[portid] 
restore (mask); 
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/* ID of port to use sai d 
/* saved interrupt mask xy 
/* pointer to table entry Ap 
/* local copy of sequence num. */ 
/* message to return */ 


/* first node on message list */ 


)->ptstate != PT_ALLOC ) { 


return (uint32)SYSERR; 


/* Wait for message and verify that the port is still allocated */ 


seq = ptptr->ptseg; 


/* record orignal sequence +y 


if (ptptr->ptstate !- PT ALLOC || wait (ptptr->ptrsem) == SYSERR 


|| ptptr-»ptseq != seq) { 
restore (mask); 


return (uint32)SYSERR; 


/* Dequeue first message that 


msgnode - ptptr-»pthead; 
msg - msgnode-»ptmsg; 


is waiting in the port */ 


if (ptptr-»pthead -- ptptr-»pttail) /* delete last item *y 
ptptr-»pthead - ptptr-»pttail - NULL; 


else 


ptptr->pthead = msgnode->ptnext; 


msgnode->ptnext = ptfree; 
ptfree = msgnode; 
signal (ptptr->ptssem) ; 
restore (mask); 
return msg; 

} 


函数 ptrecv 首先 检查 参数 ， 等 待 消 息 可 


用 局 部 变量 msg 记录 要 返回 的 消息 ， mi 


11.8 端口 的 删除 和 重 置 


/* return to free list */ 


， 人 确认 端口 没有 被 删除 或 重用 ， 然 后 将 消息 结 点 出 队 。 
吉 点 返回 到 空闲 链表 中 ， 最 后 将 消息 返回 给 调用 者 。 


系统 有 时 需要 删除 或 重 置 一 个 端口 。 在 这 两 种 情况 下 ， 系 统 必 须 处 理 等 待 的 消息 ， 将 消息 结 点 返 


回 给 空闲 链表 ， 人 允许 等 待 的 进程 继续 执行 。 但 
或 将 它们 返回 给 发 送 这 些 消息 的 进程 。 通 常 ， 


端口 系统 怎么 处 理 等 待 的 消息 ?” 它 可 以 选择 将 它们 扔 掉 ， 
应 当 允 许 用 户 指明 处 理 的 方式 。 函 数 ptdelete 和 ptreset 执 


行 端口 删除 和 重 置 操作 。 代 码 描述 在 文件 ptdelete. c 和 ptreset. c 中 。 
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/* ptdelete.c - ptdelete */ 


#include <xinu.h> 


/* rq E Ua gn MA QN: i pp Ni al b TIRA RT Be ee ee ra 
* ptdelete -- delete a port, freeing waiting processes and messages 
六 
* 

syscall ptdelete( 

int32 portid, /* ID of port to delete af 
int32 (*dispose) () /* function to call to dispose */ 
) pie of waiting messages ord 
{ 
intmask mask; /* saved interrupt mask Li 
struct ptentry *ptptr; /* pointer to port table entry  */ 


mask - disable(); 
if ( isbadport(portid) || 
(ptptr- &porttab[portid])-»ptstate !- PT ALLOC ) ( 
restore (mask); 
return(SYSERR); 
} 
_ptclear(ptptr, PT FREE, dispose); 
ptnextid = portid; 
restore (mask); 
return(OK); 
) 
/* ptreset.c - ptreset */ 


#include «xinu.h» 


/* —— SS SS Se ee ae re ee E me ew ee eres eee 
* ptreset -- reset a port, freeing waiting processes and messages and 
leaving the port ready for further use 
Lt eee Se EE aa ee si 
|i d 
syscall ptreset( 
int32 portid, /* ID of port to reset íi] 
int32 (*dispose) () /* function to call to dispose */ 
) /* | of waiting messages tj 
{ 
intmask mask; /* saved interrupt mask * 
struct ptentry *ptptr; /* pointer to port table entry */ 
mask = disable(); 
if ( isbadport(portid) || 
(ptptr= &porttab[portid])->ptstate != PT_ALLOC ) { 
restore (mask); 
return SYSERR; 
J 
_ptclear(ptptr, PT ALLOC, dispose); 
restore (mask); 
return OK; 
} 


PRIX ptdelete 和 ptreset 都 验证 它们 的 参数 是 否 正确 ， 然 后 调用 _ptelear 函数 来 执行 清除 消息 和 等 待 
进程 的 操作 ” 。 在 执行 清除 端口 号 的 操作 时 ，_ptclear 将 端口 号 的 状态 置 为 “limbo” (PT_LIMBO), limbo 





C _ptelear 以 下 划 线 开头 说 明 这 个 函数 是 系统 内 部 函数 ， 不 会 被 用 户 所 调用 。 


状态 可 以 保证 其 他 的 进程 不 能 使 用 该 端口 
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拒绝 分 配 该 端口 。 


在 声明 一 个 端口 可 以 再 使 用 前 ，_ptclear 会 重复 地 调用 dispose， 并 将 其 传送 给 每 个 等 待 的 消息 。 最 
后 ， 当 所 有 的 消息 都 移 除 后 ，_ptclear 删除 或 用 它 的 第 二 个 参数 指定 的 值 重 置信 号 量 。 在 处 理 消 息 前 ， 
_ptclear 将 端口 的 序号 加 1， 这 样 当 等 待 的 进程 被 唤醒 后 可 以 辨别 端口 已 经 发 生 了 变化 。 这 里 的 代码 实 


现在 ptclear. c 文件 中 。 


/* ptclear.c - _ptclear */ 


#include <xinu.h> 


ptsend 和 ptrecv 将 拒绝 对 端口 进行 操作 ，ptcreate PRI 数 也 


#4 


/* J—————————— M—————————————————————————————————————n 
*  ptclear -- used by ptdelete and ptreset to clear or reset a port 
* (internal function assumes interrupts disabled 
* and arguments have been checked for validity) 
Was ica das i cia ains Ge i i i i Ls an V que accasa 
e 
void _ptclear ( 
struct ptentry *ptptr, /* table entry to clear 
uint16 newstate, /* new state for port 
int32 (*dispose) (int32)/* disposal function to call 
) 
{ 
struct ptnode  *walk; /* pointer to walk message list 


*/ 


/* Place port in limbo state while waiting processes are freed */ 


ptptr->ptstate = PT LIMBO; 


ptptr->ptsegt+; /* reset accession number 
walk = ptptr->pthead; /* first item on msg list 
if ( walk != NULL ) { /* if message list nonempty 


/* Walk message list and dispose of each message */ 


for( ; walk!=NULL ; walk=walk->ptnext) ( 
(*dispose) ( walk->ptmsg ); 


/* Link entire message list into the free list */ 


(ptptr->pttail)->ptnext = ptfree; 
ptfree - ptptr-»pthead; 


if (newstate -- PT ALLOC) ( 
ptptr-»pttail - ptptr-»pthead - NULL; 
sreset(ptptr-»ptssem, ptptr-»ptmaxcnt); 
sreset (ptptr->ptrsem, 0); 

} else { 
Sdelete (ptptr->ptssem) ; 
sdelete (ptptr->ptrsem) ; 

} 

ptptr->ptstate = newstate; 

return; 


*/ 
id 


^ 
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11.9 观点 

因为 提供 同步 的 接口 ， 所 以 端口 机 制 允 许 进 程 等 待 下 一 个 消息 的 到 来 。 同 步 接口 可 以 很 强大 一 一 
聪明 的 程序 员 可 以 利用 该 机 制 来 协调 进程 (例如 ， 实 现 进程 间 的 互 斥 )。 有 趣 的 是 ， 在 进程 协调 的 同 
时 也 可 能 导致 一 个 潜在 的 问题 : 死 锁 。 也 就 是 说 ， 可 能 会 有 一 系列 端口 被 阻塞 ， 所 有 的 进程 都 在 等 符 
消息 ， 没 有 进程 发 送 消 息 。 因 此 ， 当 程序 员 使 用 端口 时 ， 应 该 小 心 确保 不 让 死 锁 发 生 。 


11.10 Ba 

本 章 介绍 了 一 个 高 层 消息 传递 机 制 ， 称 为 通信 端口 ， 该 机 制 允 许 进程 间 通 过 在 指定 的 端口 交换 信 
息 。 每 个 端口 包含 一 个 固定 长 度 的 消息 队列 。 函 数 ptsend 处 理 在 队列 末尾 的 消息 ， 而 ptreev 获取 队列 
头 部 的 消息 。 当 进程 试图 从 一 个 空 端 口 接收 消息 时 ， 该 进程 会 被 阻塞 ， 直 到 有 消息 到 达 。 当 进程 试图 
往 一 个 队列 已 满 的 端口 发 送 消息 时 ， 该 进程 会 被 阻塞 ， 直 到 队列 中 有 空闲 的 空间 。 


练习 

11.1 EPA send, receive 和 ptsend、ptrecev。 是 否 可 以 设计 一 个 简单 的 包含 这 两 组 函数 的 消息 传递 方 
案 ? 解释 应 如 何 设计 ? i 

11.2 静态 分 配 和 动态 分 配 资源 间 存 在 很 大 的 区 别 。 例 如 ， 尽 管 进程 间 的 消息 槽 是 静态 分 配 的 ， 但 端口 是 
动态 分 配 的 。 在 多 进程 的 环境 中 ， 动 态 分 配 的 关键 问题 是 什么 ? 

11.3 改变 消息 结 点 的 分 配方 案 ， 使 一 个 信号 量 可 以 控制 空闲 链表 中 的 结 点 。 如 果 没 有 空闲 结 点 ， 让 pt- 
send 等 待 一 个 空闲 的 结 点 。 新 引入 的 方案 ， 如 果 存 在 潜在 问题 ， 请 问 潜在 的 问题 是 什么 ? 

11.4 妨 懂 用 于 内 部 不 一 致 或 潜在 死 锁 的 情况 下 。 通 常 引 起 铠 慌 的 条 件 是 不 能 复制 的 ， 所 以 难以 精确 地 找 
到 原因 。 讨 论 在 ptsend 中 ， 你 可 以 采取 何 种 措施 来 跟踪 引起 恐慌 的 原因 ? 

11.5 因为 在 ptsend 中 对 榴 懂 的 调用 是 可 选 的 ， 所 以 考虑 分 配 更 多 的 结 点 或 重 试 该 操作 。 每 个 操作 的 次 端 





是 什么 ? 
11.6 重 写 ptsend 和 ptrecv， 当 它们 等 待 的 端口 被 删除 时 返回 一 个 特殊 的 值 。 这 个 新 机 制 的 主要 不 利 方面 
是 什么 ? 


11.7. 修改 前 面 章 节 中 分 配 、 使 用 和 删除 对 象 的 程序 ,使 得 当 通 信 端 口 函 数 执行 删除 操作 时 可 以 通过 使 用 
一 个 序列 号 来 侦 测 到 。 

11.8 ptsend 和 ptrecv 不 能 传递 带 有 SYSERR 值 的 消息 ， 因 为 ptrecv 不 能 区 别 是 带 有 该 值 的 消息 和 还 是 一 
个 错误 返回 。 重 新 设计 该 函数 以 便 能 传递 任何 值 。 
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Leonard Bernstein 


12.1 引言 


前 面 的 章节 主要 讲述 了 处 理 器 和 内 存 管 理 。 在 讲述 处 理 器 管理 的 章节 中 ， 主 要 介绍 了 并 发 处 理 的 
概念 ， 说 明了 进程 是 怎样 创建 和 终止 的 ， 以 及 进程 间 是 如 何 协 调 工 作 的 。 在 内 存 管 理 的 章节 中 描述 了 
使 用 低级 机 制 来 管理 动态 分 配 和 栈 、 堆 存储 器 的 释放 。 

本 章 首先 讨论 输入 /输出 (LO) 设备 。 本 章 回顾 中 断 的 概念 ， 介 绍 操作 系统 用 来 处 理 中 断 的 整 
体 软件 架构 。 本 章 将 描述 一 个 中 断 分 配 机 制 ， 当 中 断 发 生 时 ， 该 机 制 将 控制 权 传递 给 合适 的 中 断 处 
理 程 序 。 更 重要 的 是 ， 本 章 解 释 了 中 断 间 的 复杂 关系 和 并 发 进程 的 操作 系统 抽象 ， 给 出 了 当中 断 发 
生 时 ， 中 断代 码 必须 遵循 的 总 的 指导 方针 以 便 提 供 正 确 安全 的 并 发 进程 实现 。 在 后 续 章节 中 ， 我 们 
将 继续 讨论 如 何 对 特定 的 设备 进行 中 断 处 理 ， 其 中 包括 实时 时 钟 设备 。 


12.2 中 断 的 优点 


中 断 机 制 主 要 用 于 第 三 代 计算 机 系统 ， 可 以 强 有 力 地 将 输入 /输出 活动 和 计算 处 理 分 开 。 如 果 没 有 
中 断 设备 ， 操 作 系统 提供 的 很 多 服务 将 不 可 能 实现 。 

中 断 机 制 的 动机 就 是 并 发 。 除 了 依赖 CPU 来 完全 控制 输入 /输出 外 ， 每 一 个 设备 都 包含 一 个 可 以 
独立 操作 的 硬件 。 只 需要 CPU 启动 或 停止 一 个 设备 。 一 旦 启动 ， 设 备 将 继续 传送 数据 ， 而 不 需要 进 一 
步 帮 助 。 因 为 大 多 数 的 输入 /输出 进程 比 计算 操作 慢 很 多 ， 所 以 CPU 可 以 启动 多 个 设备 ， 人 允许 它们 并 
行进 行 。 启 动 输入 /输出 后 ，CPU 可 以 继续 其 他 的 计算 〈 如 执行 其 他 的 进程 ) 直到 设备 终端 表明 处 理 
已 经 完成 。 这 里 关键 的 思想 是 : 

中 断 机 制 允 许 处 理 器 和 输入 /输出 设备 并 行 。 尽 管 实现 细节 可 能 有 差别 ， 但 是 硬件 一 般 包 

括 可 以 自动 中 断 正常 处 理 的 机 制 ， 和 当 一 个 设备 完成 操作 或 需要 CPU 处 理 时 通知 操作 系统 的 

机 制 。 


12.3 中 断 分 配 

当中 断 发 生 时 ， 处理 器 中 的 硬件 执行 三 个 基本 的 步骤 : 

。 当中 断 正 在 处 理 时 ， 立 刻 改变 处 理 器 的 状态 以 阻止 其 他 的 中 断 发 生 。 

。 当中 断 处 理 完 后 ， 保 存 足 够 的 状态 以 允许 处 理 器 继续 执行 。 

。 分 配 出 预先 定义 好 的 内 存单 元 ， 操 作 系 统 可 以 将 处 理 中 断 的 代码 放置 在 这 些 单元 中 。 

每 个 处 理 器 都 包含 能 够 使 中 断 处 理 变 得 复杂 的 细节 。 例 如 ， 当 硬件 保存 状态 时 ， 大 多 数 系 统 中 的 
硬件 并 没有 保存 所 有 处 理 器 寄存 器 的 完整 副本 信息 。 相 反 ， 这 些 硬件 一 般 只 记录 了 一 些 基 本 的 值 ， 比 
如 指令 指针 ”的 副本 ， 因 此 操作 系统 需要 保存 所 有 在 中 断 处 理 期 间 用 到 的 寄存 器 信息 。 当 中 断 处 理 结 
束 后 ， 操 作 系 统 还 要 在 正常 处 理 前 先 恢复 保存 的 所 有 值 。 


12.4 中 断 向 量 
当中 断 发 生 时 ， 操 作 系统 必须 能 识别 哪个 设备 发 出 了 中 断 请 求 。 为 了 进行 设备 识别 ， 人 们 提出 了 





O ”指令 指针 包含 了 下 一 个 执行 的 指令 的 地 址 ， 在 某 些 架构 上 使 用 术语 程序 计数 器 。 
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很 多 硬件 机 制 。 例 如 ， 在 一 些 硬件 上 ， 为 了 识别 设备 ， 操 作 系 统 必须 使 用 总 线 来 询问 设备 以 进行 识别 。 
在 另 一 些 设备 上 ，CPU 中 的 硬件 可 以 自动 处 理 任务 内 存 中 的 中 断 向 量 
接 下 来 我 们 讨论 一 个 例子 。 





一 个 设备 怎样 识别 自己 呢 ? 最 党 用 的 机 制 是 使 用 中 AEE OS 
断 向 量 。 给 每 个 设备 分 配 一 个 唯一 的 整数 (0，1, 2 处 理 设备 1 的 代码 
等 ) 。 这 个 整数 称 为 中 断 向 量 号 或 中 断 请 求 号 IRQ)。 当 处 理 设备 2 的 代码 
中 断 发 生 时 ， 设 备 说 明 自 己 的 中 晰 向 量 号 。 硬 件 或 操作 inmate 
系统 使 用 中 断 号 作为 索引 访问 内 存 中 的 中 断 向 量 数 组 。 
操作 系统 通过 指针 来 访问 中 断 向 量 数组 的 每 个 单元 ,该 
指针 指向 一 个 处 理 该 中 断 的 函数 。 因 此 ， 如 果 一 个 中 断 
向 量 号 为 i 的 设备 发 出 了 中 断 ， 则 控制 分 支 是 : 

interrupt vector[i] 图 12-1 内 存 中 的 中 断 向 量 ， 每 个 表 项 包含 一 
图 12-1 说 明了 内 存 中 的 中 断 向 量 组 。 个 指针 ， 指 向 一 种 设备 处 理 代码 


12.5 中 断 向 量 号 的 分 配 

在 计算 机 体系 结构 中 ， 中 断 向 量 分 配 的 细节 差别 很 大 。 早 期 的 系统 要 求 在 每 个 设备 插入 计算 机 前 
先 手动 给 每 个 设备 分 配 一 个 唯一 的 中 断 值 ( 例 如， 在 电路 板 上 使 用 开关 或 跳 线 ) 。 有 些 系统 会 给 每 个 
设备 分 配 两 个 中 断 向 量 号 : 一 个 用 于 设备 完成 输入 操作 ， 另 一 个 用 于 设备 完成 输出 操作 。 手 动 分 配 存 
在 的 问题 是 ， 这 样 的 工作 比较 乏味 且 易 于 出 错 。 如 果 计 算 机 的 所 有 者 意外 地 将 同一 个 中 断 向 量 号 分 给 
了 两 个 不 同 的 设备 ,那么 设备 将 不 能 正确 地 执行 。 后 来 的 系统 采用 了 一 种 不 太 容易 出 错 的 方法 : 使 用 
套 接 字 (socket) ， 每 个 设备 可 以 通过 套 接 字 加 入 到 系统 中 ， 这 样 中 断 向 量 号 和 每 个 套 接 字 相关 联 而 不 
是 和 设备 相关 联 。 无 论 分 配 是 如 何 完成 的 ， 和 设备 相关 联 的 中 断 地 址 必须 和 操作 系统 协调 。 因 为 操作 
系统 初始 化 了 内 存 中 的 中 断 向 量 。 

在 现代 的 系统 中 ， 中 断 向 量 的 分 配 更 加 动态 化 。 例 如 ， 有 些 设 备 允 许 中 断 号 是 可 编程 的 。 当 操作 
系统 启动 时 ， 它 使 用 总 线 来 决定 目前 有 哪些 输入 /输出 设备 。 系 统 在 可 用 的 设备 集中 进行 迭代 ， 然 后 为 
每 个 设备 选择 一 个 唯一 的 中 断 向 量 号 。 系 统 使 用 总 线 来 通知 每 个 设备 它 的 中 断 向 量 号 ， 初 始 化 内 存 中 
的 中 断 向 量 以 指向 正确 的 中 断 处 理 程序 。 

最 后 一 种 方法 允许 设备 在 操作 系统 运行 的 过 程 中 加 入 到 系统 中 来 。 例 如 ，USB 设备 。 操 作 系统 给 
USB 控制 器 分 配 一 个 唯一 的 硬件 中 断 ， 然 后 给 控制 器 分 配 一 个 设备 驱动 器 。 驱 动 器 可 以 动态 地 给 每 个 
设备 加 载 额外 的 驱动 器 代码 。 因 此 ， 当 一 个 新 的 设备 加 入 时 ， 控 制 器 为 设备 加 载 驱 动 器 并 记录 驱动 器 
的 位 置信 息 。 之 后 ， 当 设备 发 生 中 断 时 ， 控 制 器 将 接收 中 断 ， 然 后 将 中 断 转 发 给 合适 的 驱动 器 代码 。 


12.6 硬件 中 断 
中 断 向 量 位 于 内 存 中 的 什么 位 置 呢 ? 硬件 负责 处 理 中 断 的 哪 一 部 分 呢 ? 选择 可 以 有 很 多 ， 具 体 实 


现 细节 依赖 于 计算 机 系统 的 实现 。 许 多 大 型 计算 机 系统 允许 操作 系统 选择 中 断 向 量 数组 的 位 置 。 当 操 
作 系 统 启动 时 ， 首 先 选 择 位 置信 息 ， 然 后 ， 通 过 将 地 址 信息 存储 在 内 部 硬件 寄存 器 来 通知 硬件 该 位 置 




















局 息 o 

在 大 型 系统 中 ， 硬 件 可 以 在 不 使 用 CPU 的 情况 下 处 理 许多 细节 。 例 如 ， 硬 件 可 以 使 用 总 线 来 询问 
中 断 设备 的 中 断 向 量 号 。 使 用 向 量 号 作为 索引 ， 然 后 直接 将 设备 交 给 中 断 处 理 代码 。 然 而 ， 在 小 型 系 
统 中 ， 处 理 器 系统 必须 使 用 总 线 来 决定 中 断 向 量 号 一 一 处 理 器 发 出 请 求 ， 中 断 设备 则 返回 它 的 唯一 中 
斯 向 量 号 。 


小 型 蔡 入 式 系统 经 常 采用 一 个 简化 的 中 断 机 制 : 每 个 中 断 单元 是 硬 连接 的 ， 要 么 通过 租 入 一 个 处 
理 需 芯片 ， 要 么 通过 主板 。 当 中 断 发 生 时 ， 操 作 系统 必须 决定 是 哪个 设备 发 生 了 中 断 ， 然 后 使 用 中 断 
问 量 号 转 人 特定 设备 的 中 断 函 数 。 像 第 3 章 所 描述 的 那样 : 硬件 使 用 硬 连接 方法 : 当 设备 发 生 中 断 时 ， 
处 理 器 转向 Ox800000180 单元 。 幸 运 的 是 ， 示 例 系 统 使 用 了 一 个 可 以 处 理 许多 细节 的 协同 处 理 器 。 当 
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中 断 发 生 时 ， 协 同 处 理 器 使 用 总 线 来 识别 设备 。 通 过 在 CAUSE 寄存 器 中 放置 一 个 值 来 识别 中 断 。 因 
此 ， 当 处 理 器 处 理 中 断 时 ， 处 理 器 不 需要 直接 与 硬件 或 设备 进行 交互 。 处 理 器 只 需要 从 协同 处 理 带 的 
CAUSE 寄存 器 中 加 载 值 就 可 以 了 ， 然 后 使 用 该 值 来 判断 发 出 中 断 请 求 的 设备 。 


12.7 中断 请 求 的 局 限 性 和 中 断 多 路 复 用 

许多 处 理 器 对 分 配 的 唯一 中 断 向 量 号 有 所 限制 〈 典 型 的 上 限 是 8) 。 如 果 中 断 系统 对 向 量 的 大 小 有 
限制 ， 系 统 怎样 给 设备 分 配 一 个 任意 的 中 断 向 量 号 呢 ? 答案 取决 于 一 种 中 断 多 路 复 用 的 技术 : 一 个 中 
断 号 可 以 分 配给 多 个 设备 。 当 中 断 发 生 时 ， 分 配器 必须 确定 分 配 相同 中 断 号 的 哪个 设备 需要 服务 。 

中 断 多 路 复 用 最 适合 于 多 个 设备 使 用 了 一 个 硬件 接口 的 情况 。 例 如 ，USB 设备 。 从 计算 机 的 角度 
来 看 ，USB 集线器 就 好 像 是 连 在 计算 机 总 线 上 的 设备 。 事 实 上 ，USB 集线器 只 提供 了 一 个 额外 的 总 线 
接口 ， 使 用 该 接口 可 以 连接 多 个 设备 。 无 论 什么 时 候 当 USB 设备 需要 使 用 服务 的 时 候 ， 设 备 可 以 使 用 
与 USB 关联 的 中 断 号 来 发 送 中 断 请 求 ， 然 后 操作 系统 就 将 控制 权 转 给 USB 处 理 程序 。USB 处 理 程序 可 
以 判断 是 哪个 设备 需要 服务 ， 然 后 将 控制 权 转 发 给 处 理 该 设备 的 代码 。 

Linksys 硬件 就 是 多 重 中 断 的 一 个 例子 。 一 个 MIPS 处 理 器 只 允许 分 配 8 个 唯一 的 中 断 号 。 其 他 的 
保留 用 于 特殊 的 目的 。 为 了 满足 约束 ，E2100L 硬件 将 系统 主板 的 所 有 硬件 多 路 复 用 到 一 个 中 断 向 
量 上 一 一 硬件 中 断 4。 当 它 收 到 中 断 4 时 ， 硬 件 就 向 系统 主板 发 出 询问 以 判断 是 哪个 设备 引起 了 中 断 。 
例如 ， 如 果 一 个 串 行 设备 引起 了 中 断 ， 硬 件 将 会 识别 中 断 是 从 主板 的 设备 3 发 出 的 。 


12.8 中 断 软件 和 分 配 

当 操 作 系 统 识 别 了 引起 中 断 的 设备 后 ， 它 就 调用 处 理 该 设备 中 断 的 函数 。 我 们 说 操作 系统 将 中 断 分 
配给 相应 的 中 断 处 理 程序 ， 我 们 使 用 分 配器 来 指 代 执行 分 配 函 数 的 操作 系统 代码 。 即 使 计算 机 中 的 硬件 
可 以 自动 接受 中 断 向 量 ， 但 许多 操作 系统 用 中 断 分 配器 的 地 址 来 填充 所 有 的 中 断 向 量 ， 这 样 分 配器 可 以 
实现 调度 常量 和 其 他 的 全 局 系统 策略 。 图 12-2 显示 了 中 断 过 程 中 分 配器 和 处 理 程序 集合 的 概念 结构 。 


) 
H, 
硬件 中 断 
分 配器 
| 单个 设备 的 处 理 程序 


7 


图 12-2 中断 处 理 软件 的 概念 结构 


需要 注意 的 是 有 些 细节 可 能 导致 更 加 复杂 的 结 必 。 例 如 ， 因 为 MIPS 中 断 分 配器 需要 询问 协 处 理 器 
的 硬件 寄存 器 ， 并 使 用 特殊 的 指令 从 中 断 中 返回 ， 有 些 MIPS 中 断 分 配器 必须 用 汇编 语言 来 写 。 在 这 种 
情况 下 ， 扩 展 汇 编 语 言 代 码 以 宫 括 所 有 的 中 断 处 理 是 合理 的 。 然 而 ， 中 断代 码 是 操作 系统 的 重要 部 分 ， 
而 汇编 语言 代码 难以 理解 和 修改 。 因 此 ， 为 了 保持 系统 代码 的 可 读 性 ， 大 多 数 操作 系统 设计 人 员 将 分 
配器 分 为 两 个 部 分 : 系统 将 硬件 中 断 分 为 更 小 的 部 分 ， 用 汇编 语言 来 写 的 低层 的 代码 。 低 层 的 代码 处 
理 保 存 和 恢复 寄存 器 等 指令 ， 与 协 处 理 器 进行 通信 以 识别 中 断 设备 ,一 旦 中 断 完成 后 使 用 特殊 的 指令 
来 从 中 断 中 返回 。 低 层 的 代码 很 少 一 一 一 旦 寄存 器 保存 完 后 ， 低 层 代码 就 调用 一 个 用 C 语言 编写 的 高 
层 分 配器 函数 。 高 层 分 配器 检测 中 断 向 量 数 组 或 使 用 其 他 操作 系统 的 数据 结构 来 选择 中 断 设 备 的 处 理 
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程序 。 一 旦 处 理 程序 的 地 址 计算 完毕 ， 高 层 中 断 分 配器 就 调用 该 处 理 程序 。 尽 管 分 为 了 两 部 分 ， 但 分 
配器 的 代码 量 还 是 很 小 的 一 一 所 有 与 给 定 设备 进行 通信 的 代码 都 放 在 中 断 处 理 程 序 中 ， 而 不 是 分 配 
器 中 。 
我 们 的 示例 系统 还 实现 了 一 个 额外 的 细节 。 为 了 理解 系统 的 结构 ， 示 例 里 的 中 断 人 硬件 总 是 指向 
0x80000180 单元 ， 操 作 系 统 位 于 0x80001000 单元 。 因 此 ， 当 操作 系统 启动 时 ， 它 将 代码 放置 在 
0x80001000 单元 。 系 统 在 指定 位 置 存 储 了 一 个 跳 转 指令 ， 当 中 断 发 生 时 该 指令 可 以 使 处 理 器 跳 转 到 低 
层 中 断 分 配器 (代码 中 的 intdispatch) ， 这 里 并 没有 将 整个 低层 中 断 处 理 程 序 的 代码 复制 到 指定 的 存储 


单元 。 图 12-3 显示 了 当 操 作 系统 完成 初始 化 后 的 代码 布局 。 





硬件 中 断 


跳 转 到 intdispatch intdispatch dispatch E 








/ > 设备 处 理 程序 
用 汇编 语言 写 的 跳 转 指令 | 用 汇编 语言 用 C 语 言 
并 复制 到 地 址 0x80000180 ”| 写 的 低层 模块 写 的 高 层 模块 





图 12-3 示例 系统 中 中 断代 码 的 组 织 结构 

> intdispatch 启动 时 ， 它 在 当前 运行 时 栈 中 分 配 空间 ， 保 存 每 一 个 处 理 器 寄存 器 ， 以 便 可 以 在 中 
汤 返 回 前 恢复 。 因 为 高 层 处 理 函数 ，dispatch， 是 用 C 语言 写 的 ， 所 以 intdispatch 必须 用 C 语言 来 调用 
dispatch。 因 此 ， 保 存 寄存 器 后 ，intdispatch 从 协 处 理 器 的 CAUSE 寄存 器 中 抽取 数值 来 判断 中 断 源 ， 然 
后 将 栈 中 的 值 作 为 dispatch 的 参数 。intdispatch 也 将 保存 的 栈 页 框 的 地 址 值 作为 第 二 个 参数 。 

图 12-3 描述 的 四 个 中 断 处 理 程序 分 别 和 示例 系统 中 的 主要 设备 类 型 相 匹配 : 

e Qs (Pe). 

© 有 线 网 络 设备 (WAM). 

e 无 线 网 络 (Wi-Fi)。 

e 实时 时 钟 设备 (定时 器 )。 


12.9 中 断 分 配器 底层 部 分 
示例 代码 可 以 解释 清楚 很 多 细节 。 文 件 intdispatch. S 包含 了 中 断 分 配器 低层 部 分 的 代码 。 


/* intdispatch.S - intdispatch */ 


#include «mips.h» 
#include «interrupt.h» 


«text 


.align 4 
-globl intdispatch 


.ent intdispatch 


intdispatch: 
.Set noreorder 
.set noat 
j savestate 
nop 

savestate: 
addiu Sp, Sp, -IRQREC SIZE 
Sw AT, IRQREC_AT(sp) 
mfcO k0, CPO CAUSE 
mfc0 k1, CPO_EPC 
Sw k0, IROREC CAUSE(sp) 
mfc0 k0, CPO_STATUS 
Sw k1, IRQREC EPC (sp) 
Sw k0, IRQREC STATUS (sp) 
.set at 
.set reorder 
Sw v0, IRQREC VO(sp) 
Sw vl, IRQREC_V1(sp) 
SW a0, IRQREC A0(sp) 
Sw al, IRQREC A1 (sp) 
Sw a2, IRQREC A2 (sp) 
Sw a3, IRQREC A3 (sp) 
Sw tO, IRQREC_TO (sp) 
Sw t1, IROREC Tl(sp) 
Sw t2, IROREC T2 (sp) 
Sw t3, IRQREC T3 (sp) 
Sw t4, IRQREC T4(sp) 
Sw t5, IRQREC_T5 (sp) 
sw t6, IRQREC_T6 (sp) 
sw t7, IRQREC_T7 (sp) 
sw s0, IRQREC SO(sp) 
Sw S1, IRQREC_S1(sp) 
Sw S2, IRQREC S2(sp) 
Sw s3, IRQREC S3(sp) 
Sw S4, IRQREC_S4 (sp) 
sw s5, IRQREC_S5(sp) 
sw s6, IRQREC_S6(sp) 
sw s7, IRQREC_S7 (sp) 
sw t8, IRQREC T8 (sp) 
Sw t9, IROREC T9 (sp) 
Sw k0, IRQREC KÜ0(sp) 
Sw k1, IRQREC Kl(sp) 
Sw gp, IRQREC_S8(sp) 
Sw Sp, IRQREC SP(sp) 
sw fp, IRQREC_S9(sp) 
sw ra, IRQREC_RA(sp) 
sw zero, IRQREC_ZER(sp) 
mfhi to 
mflo tl 
Sw t0, IRQREC HI(sp) 
Sw tl, IRQREC LO(sp) 
lw a0, IRQREC_CAUSE (sp) 
move al, sp 
jal dispatch 

restorestate: 
lw t0, IRQREC_HI (sp) 
lw tl, IRQREC LO(sp) 
mthi to 
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/* Jump to low-level handler 


/* Allocate space on stack 
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=f 


/* Save assembler temp reg first*/ 


/* Save interrupt CAUSE value 
/* Save interrupted PC value 


/* Save co-processor STATUS 


SY 
Sw 


Bi 


/* Save all general purpose regs*/ 


/* Save hi and lo 


/* Pass cause and state info to 
/* high-level dispatcher 


/* On return from dispatcher 


/* 


restore all state 


eh 


ad 


ud 


*y 
*/ 
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mtlo tl 

lw ra, IRQREC RA(sp) /* Restore general purpose regs */ 
lw fp, IRQREC S9(sp) 
lw gp, IRQREC S8(sp) 
lw t9, IRQREC T9 (sp) 
lw t8, IRQREC T8(sp) 
lw S7, IRQREC S7(sp) 
lw s6, IRQREC. S6(sp) 
lw s5, IRQREC S5(sp) 
lw s4, IRQREC SA(sp) 
lw s3, IRQREC_S3 (sp) 
lw s2, IRQREC_S2 (sp) 
lw sl, IRQREC_S1(sp) 
lw s0, IRQREC SO(sp) 
lw t7, IRQREC T7 (sp) 
lw t6, IROREC T6(sp) 
lw t5, IRQREC T5 (sp) 
lw t4, IRQREC T4(sp) 
lw t3, IRQREC T3 (sp) 
lw t2, IRQREC, T2 (sp) 
lw tl, IRQREC_T1 (sp) 
lw tO, IRQREC TO(sp) 
lw a3, IRQREC, A3 (sp) 
lw a2, IRQREC, A2 (sp) 
lw al, IRQREC A1(sp) 
lw a0, IRQREC AO(sp) 
lw vl, IRQREC_V1(sp) 
lw v0, IRQREC_VO (sp) 


.Set noreorder 


.Set noat 

lw k0, IRQREC EPC(sp) /* Restore interrupted PC value */ 
lw AT, IRQREC AT(sp) /* Restore assembler temp reg Ky 
mtc0 k0, CPO EPC 

lw k1, IRQREC STATUS (sp) /* Restore global status reg FY 
addiu sp, sp, IRQREC SIZE /* Restore stack pointer la i 
mtc0 k1, CPO, STATUS 

nop /* Delay for co-processor ay 
eret /* Return from interrupt *yf 
nop 

nop 

.set at 


.Set reorder 
.end intdispatch 


12.10 ”中 断 分 配器 高 层 部 分 


一 旦 分 配 融 的 低层 部 分 保存 了 处 理 器 寄存 器 的 状态 并 通过 询问 协 处 理 器 确定 了 引起 中 断 的 设备 ， 
它 就 调用 dispatch 函数 ， 传 递 指定 设备 的 参数 和 包含 保存 状态 页 框 的 指针 。dispatch 使 用 cause 参数 








确定 合适 的 中 断 处 理 程 序 ， 并 调用 这 个 程序 。 一 旦 中 断 处 理 程 序 返回 ，dispateh 就 将 其 返回 给 具有 恢 
复 处 理 絮 寄存 器 状态 和 从 中 断 返 回 功能 的 中 断 分 配器 的 低层 部 分 。 文 件 dispatch. e 包含 了 该 部 分 
代码 。 








/* dispatch.c */ 


#include <xinu.h> 
#include <mips.h> 
#include <ar9130.h> 
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/* Initialize list of interrupts */ 


char *interrupts[] = { 
"Software interrupt request 0", 
"Software interrupt request 1", 
"Hardware interrupt request 0, wmac", 
"Hardware interrupt request 1, usb", 
"Hardware interrupt request 2, eth0", 
"Hardware interrupt request 3, ethl", 
"Hardware interrupt request 4, misc", 
"Hardware interrupt request 5, timer", 
"Miscellaneous interrupt request 0, timer", 
"Miscellaneous interrupt request 1, error", 
"Miscellaneous interrupt request 2, gpio", 
"Miscellaneous interrupt request 3, uart", 
"Miscellaneous interrupt request 4, watchdog", 
"Miscellaneous interrupt request 5, perf", 
"Miscellaneous interrupt request 6, reserved", 
"Miscellaneous interrupt request 7, mbox", 


void dispatch( 


int32 cause, /* identifies interrupt cause * 
int32 *frame /* pointer to interrupt frame that Rf 
/* contains saved status *y 

) 

t 

intmask mask; /* saved interrupt status *y 
int32 irqcode - 0; /* code for interrupt *y 
int32 irgnum - -1; /* interrupt number *y 


void (*handler) (void);/* address of handler function to call */ 


if (cause & CAUSE EXC) exception(cause, frame); 


/* Obtain the IRQ code */ 
irqcode - (cause & CAUSE IRQ) »» CAUSE IRQ SHIFT; 
/* Calculate the interrupt number */ 


while (irqcode) ( 
irgnum++; 
irqcode = irqcode >> 1; 


if (IRQ ATH MISC == irqnum) { 
uint32 *miscStat - (uint32 *)RST MISC INTERRUPT STATUS; 
irqcode - *miscStat & RST MISC IRQ MASK; 
irgnum = 7; 
while (irqcode) { 
irgnum--; 
irqcode - irqcode »» 1; 
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/* Check for registered interrupt handler */ 
if ((handler = interruptVector[irgnum]) == NULL) { 


kprintf("Xinu Interrupt $d uncaught, %s\r\n", 
irqnum, interrupts[irgnum]); 


while (1) ( 
; /* forever */ 

} 
) 
mask - disable(); /* Disable interrupts for duration */ 
exlreset(); /* Reset system-wide exception bit */ 
(*handler) (); /* Invoke device-specific handler */ 
exlset(); /* Set system-wide exception bit * f 


restore (mask); 


*/ 

void enable irq( 
intmask irqnumber /* specific IRQ to enable *y 
) 


int32 enable cpuirq(int); 

int irqmisc; 

uint32 *miscMask = (uint32 *)RST_MISC_INTERRUPT_MASK; 

if (irgnumber >= 8) { 
irgmisc = irgnumber - 8; 
enable cpuirq(IRQ ATH MISC); 
*miscMask |= (1 << irqmisc); 

) else ( 
enable cpuirq(irqnumber); 

) 

) 


PRW enable. irq 用 以 产生 特殊 的 中 断 。 注 意 硬件 使 用 中 断 多 路 复 用 ， 人 允许 主板 上 的 设备 发 出 硬件 中 
断 请 求 4。Xinu 操作 系统 使 用 特殊 的 技术 来 存储 主板 设备 发 出 的 中 断 处 理 程序 。 尽 管 硬件 只 使 用 8 个 
中 断 (分 别 对 应 于 中 断 向 量 数组 中 0 ~7 的 单元 ) ， 但 我 们 的 代码 仍 在 内 存 中 建立 了 较 大 的 中 断 向 量 ， 
为 主板 设备 提供 大 于 7 的 单元 。 也 就 是 说 ， 数 组 中 单元 S 对 应 主板 设备 0， 数组 中 9 对 应 主板 设备 1， 
以 此 类 推 。 但 串 行 设备 发 出 中 断 请 求 时 ， 硬 件 中 断 4 标志 着 是 主板 设备 发 出 的 请 求 。 系 统 询问 主板 设 
备 并 确定 是 主板 设备 3 发 出 的 请 求 。 然 后 代码 就 给 设备 数字 (3) 加 上 8， 从 中 断 向 量 单元 11 处 取出 
处 理 程序 地 址 。 尽 管 这 种 做 法 需要 分 配器 再 维护 一 张 独立 的 主板 设备 表 ， 但 把 信息 放 在 单一 的 数据 结 
爸 中 能 保持 系统 的 统一 ， 同 时 允许 分 配器 中 单独 的 一 段 代码 使 用 任何 处 理 程序 ， 与 是 否 使 用 中 断 复 用 
独立 开 来 。 

中 断 复 用 允许 设备 共享 一 个 中 断 向 量 。 操 作 系 统 中 的 分 配器 能 够 隐藏 分 配 过 程 ， 使 用 简 
单 的 机 制 来 触发 处 理 程序 。 


12. 11 禁止 中 断 


由 于 中 断 本 数 检测 和 改变 全 局 数据 结构 Cun VO 缓存 ) ， 所 以 在 执行 中 断 时 ， 操 作 系统 必须 阻止 
其 他 程序 执行 。 如 我 们 所 见 ， 当 一 个 中 断 发 生 时 ， 硬 件 禁 止 后 续 的 中 断 ， 这 说 明 中 断 处理 不 能 被 打 断 。 
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当中 断 分 配器 低层 部 分 调用 高 层 部 分 或 者 高 层 部 分 调用 处 理 程序 时 ， 中 断 仍然 处 于 禁止 状态 。 当 中 断 
分 配器 高 层 部 分 返回 时 ， 控 制 权 就 回 到 了 中 断 分 配器 的 低层 部 分 。 低 层 部 分 存储 有 处 理 器 的 状态 ， 并 
使 用 特殊 的 汇编 语言 结构 返回 到 产生 中 断 进程 的 确切 位 置 。 最 后 ， 低 层 中 断 分 配器 返回 ， 中 断 开局 。 


这 个 过 程 可 以 总 结 为 : 
在 分 配器 调用 高 层 中 断 处 理 程序 前 ， 中 断 禁止 。 高 层 中 断 处 理 程序 在 改变 全 局 数据 结构 
时 保持 中 断 禁 止 。 


上 述 的 中 断 策略 会 引起 微妙 的 结果 。 当 中 断 处 于 禁止 状态 时 ， 硬 件 将 执行 对 指令 数量 的 限制 。 如 
果 操 作 系统 让 中 断 禁 止 的 时 间 任 意 长 ， 那 么 设备 的 执行 就 会 出 现 问题 。 例 如 ， 如 果 一 个 处 理 器 在 后 续 
的 字符 到 达 前 漏 掉 了 一 个 字符 ， 那 么 一 个 或 者 更 多 的 字符 将 会 丢失 。 因 此 ， 中 断 程序 必须 尽快 地 完成 
任务 并 执行 开启 中 断 的 程序 。 更 重要 的 是 ， 中 断 是 全 局 的 一 一 当 一 个 设备 的 处 理 程序 引起 了 中 断后 ， 
所 有 的 设备 都 会 受到 影响 。 因 此 ， 在 写 中 断代 码 时 ， 必 须 注 意 系统 中 所 有 设备 的 限制 ， 同 时 给 予 设备 
最 短 、 最 合适 的 时 间 限 制 。 

设备 刀 的 处 理 程序 所 能 保持 中 断 禁 止 的 最 长 时 间 不 是 由 检测 设备 刀 计 算出 来 的 。 相 反 ， 
该 时 间 是 通过 选择 所 有 设备 的 最 短 时 间 限 制 所 得 到 的 。 


12. 12 ”函数 中 中 断代 码 引 起 的 限制 

为 了 确保 中 断代 码 给 予 设备 最 紧 的 时 间 限 制 ， 操 作 系统 的 设计 者 必须 通过 任意 进程 创建 一 个 用 以 
执行 的 中 断代 码 。 也 就 是 说 ， 当 中 断 发 生 时 ， 运 行 的 进程 都 可 以 执行 中 断代 码 。 

以 下 两 个 实际 情况 使 得 上 述 过 程 变 得 重要 : 

。 中 断 处 理 程序 能 调用 操作 系统 函数 。 

。 由 于 调度 器 假设 至 少 有 一 个 进程 保持 就 绪 状 态 ， 所 以 空 进程 必须 保持 在 当前 或 就 绪 状态 。 

空 进程 是 一 个 不 调用 任何 函数 的 无 限 循环 。 然 而 ， 中 断 被 认为 是 发 生 在 两 个 连续 的 指令 之 间 。 因 
此 ， 当 中 断 发 生 在 空 进程 运 行 时 ， 空 进程 仍然 会 在 处 理 程序 执行 时 运行 。 这 里 主要 的 结论 是 : 

中 断 程序 中 只 能 调用 操作 系统 中 使 进程 停留 在 当前 或 就 绪 状 态 的 函数 。 

因此 ， 中 断 程序 可 以 调用 如 send 或 signal 这 样 的 函数 ， 但 不 能 调用 如 wait 这 种 使 运行 进程 转 为 等 

待 状态 的 函数 。 


12.13 中断 过 程 中 重新 调度 的 必要 性 

考虑 在 中 断 过 程 中 重新 调度 这 个 问题 。 为 了 了 解 重新 调度 的 必要 性 ， 考 虑 以 下 情况 : 

。 调度 不 变 原则 指明 在 任何 时 候 ， 最 高 优先 权 的 合法 进程 将 一 定 会 执行 。 

© 当 一 个 V0 操作 完成 时 ， 一 个 高 优先 级 的 进程 可 能 会 变 为 合法 状态 以 使 用 处 理 器 。 

例如 ， 假 设 一 个 高 优先 级 进程 已 选 择 从 网 络 上 读 取 数据 包 。 即 使 这 个 进程 的 优先 权 很 高 , 但 P 在 
等 待 数据 包 的 时 候 也 会 阻塞 。 当 P 阻塞 时 ， 其 他 的 进程 ， 如 @， 会 运行 。 而 当 数据 包 到 达 后 ， 中 断 就 
会 发 生 。 如 果 中 断 处 理 程 序 仅 仅 是 将 P 变 为 就 绪 状 态 就 返回 ， 则 进程 Q 还 是 会 继续 运行 。 如 果 @ 的 优 
先 权 比 P 低 ， 则 调度 不 变 原则 将 会 打破 。 

考虑 一 个 更 加 极端 的 例子 ， 如 果 一 个 系统 只 有 一 个 应 用 程序 进程 ， 这 个 进程 等 待 VO 操作 而 阻塞 。 
当中 断 发 生 时 ， 空 进程 将 运行 。 如 果 中 断 处 理 程序 不 能 重新 调度 ， 则 中 断 将 返回 给 空 进 程 ， 应 用 程序 
将 永远 不 会 执行 。 这 里 关键 的 思想 就 是 : 

为 了 确保 进程 能 在 VO 操作 结束 时 被 唤醒 ， 同 时 维护 调度 不 变 原则 ， 当 中 断 处 理 程序 遇 
到 等 待 进程 变 为 就 绪 状 态 的 情况 时 ， 必 须 进 行 重新 调度 。 


12.14 ”中断 过 程 中 的 重新 调度 


中 断 策 略 和 调度 之 间 的 交互 导致 了 一 个 比较 复杂 的 问题 。 我 们 说 过 在 处 理 中 断 时 ， 中 断 程序 保持 
中 断 禁 止 。 我 们 还 说 过 ， 当 一 个 进程 变 成 就 绪 状 态 时 ， 中 断 处 理 程序 应 该 启动 重新 调度 。 然 而 ， 考 虑 
重新 调度 时 会 发 生 的 事情 。 假 设 被 选 定 执行 的 进程 执行 时 会 使 中 断 开 启 。 一 旦 这 个 进程 执行 ， 它 将 开 
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启 中 断 。 这 意味 着 中 断 处 理 程序 似乎 不 应 该 进行 重新 调度 ， 因 为 切换 到 一 个 能 响应 中 断 请 求 的 进程 可 
能 会 引起 一 系列 连锁 的 中 断 。 我 们 必须 确保 只 要 全 局 数据 结构 是 合法 的 ,那么 中 断 期 间 的 重新 调度 也 
是 安全 的 。 

为 了 理解 重新 调度 为 什么 是 安全 的 ， 考 虑 从 中 断 处 理 程序 调用 resched 的 一 系列 事件 。 假 设 在 中 断 
恢复 的 条 件 下 ， 当 中 断 发 生 时 进程 UV 在 运行 。 低 层 中 断 分 配器 代码 使 用 U 的 栈 来 保存 状态 ， 并 在 高 层 
中 断 分 配器 执行 且 中 断 禁 止 时 让 进程 U 运行 。 当 高 层 中 断 分 配器 调用 中 断 处 理 程 序 时 ， 中 断 仍然 保持 
在 禁止 状态 。 假 设 在 这 个 过 程 中 ， 代 码 调用 resched， 切 换 到 另 一 个 进程 7。 如 果 了 人 恰好 能 使 中 断 恢复 
(例如 ， 从 一 个 系统 调用 中 返回 ) ， 则 另 一 个 中 断 就 可 能 发 生 。 那 么 ， 什 么 东西 能 够 阻止 那些 未 完成 的 
中 断 不 断 累积 直到 栈 溢出 这 样 一 个 无 限 循环 呢 ? 假设 每 个 进程 都 有 自己 的 栈 ， 当 进程 U 被 上 下 文 切换 
停止 时 ， 在 它 的 栈 中 会 记录 一 个 中 断 。 新 的 中 断 会 在 使 用 T 的 栈 时 产生 。 在 另 一 个 中 断 在 U 的 栈 中 累 
积 之 前 ， 进 程 U 必须 先 竞争 得 到 CPU 的 控制 权 同时 恢复 中 断 。 然 而 ， 进 程 0 调用 调度 器 和 上 下 文 切 换 
时 中 断 是 禁止 的 。 当 切换 到 进程 U 执行 时 ， 上 下 文 切换 代码 将 保存 这 个 中 断 状态 ,，U 仍然 用 中 断 禁 止 
这 一 状态 继续 运行 。 

当 resched 返回 到 中 断 处 理 程序 或 者 中 断 处 理 程序 返回 到 分 配器 时 ， 中 断 会 保持 在 禁止 状态 。 中 断 
仅 在 分 配器 返回 到 中 断 产生 的 位 置 时 才 开 启 。 所 以 当 进 程 U 执行 中 断 指令 时 ， 其 他 中 断 不 会 发 生 ( 即 
使 有 也 只 会 是 进程 U 切换 到 别 的 进程 ， 在 另外 的 进程 中 发 生 ) 。 也 就 是 说 ， 在 任何 时 候 ， 一 个 给 定 的 
进程 只 会 有 一 个 中 断 请 求 被 响应 。 由 于 系统 在 一 个 给 定 的 时 间 内 有 有 限 的 进程 存在 ， 每 个 进程 至 多 有 
一 个 未 完成 的 中 断 ， 所 以 未 完成 的 中 断 数 目 是 有 限 的 。 以 上 主要 观点 可 以 概括 为 : 

重新 调度 是 安全 的 ， 只 要 : 1) 中 断 程序 让 全 局 数据 在 重新 调度 前 保持 在 合法 的 状态 ; 

2) 除了 使 用 中 断 禁 止 外 ， 没 有 函数 能 使 中 断 恢复 。 

这 个 规则 解释 了 为 什么 所 有 的 操作 系统 使 用 的 是 禁止 /恢复 中 断 而 不 是 关闭 /开启 中 断 。 关 闭 中 断 
的 函数 总 是 在 返回 到 调用 它 的 函数 前 恢复 中 断 。 没 有 任何 一 个 子 程序 能 够 显 式 地 开局 中 断 ， 因 为 在 进 
和 到 中 断 处 理 器 的 和 人口 时 中 断 就 被 关闭 了 ， 直 到 返回 时 才 恢 复 。 关 于 禁止 和 恢复 中 断 的 唯一 例外 就 是 
在 系统 启动 时 开启 中 断 的 初始 化 方法 。 


12.15 MA 


中 断 和 进程 之 间 的 关系 是 操作 系统 最 细微 和 复杂 的 一 面 。 中 断 是 一 种 低层 机 制 一 一 它们 是 基本 硬 
件 的 一 部 分 并 以 连续 的 操作 来 定义 ， 如 访问 - 执行 循环 。 进 程 是 高 层 抽象 一 一 它们 是 操作 系统 设计 者 
想象 出 来 的 ， 并 以 一 套 系统 函数 来 定义 的 。 因 此 ， 理 解 中 断 时 不 必 考 虑 并 发 进程 ， 理 解 并 发 进程 时 不 
必 考 虑 中 断 ， 这 样 思考 是 最 简单 的 。 

不 幸 的 是 ， 进 程 的 抽象 世界 与 中 断 的 现实 世界 相 结合 形成 了 一 个 智力 挑战 。 如 果 中 断 和 进程 间 的 
交互 不 是 想象 中 的 那样 复杂 ， 人 们 就 不 会 如 此 深入 地 考虑 问题 。 如 果 读 者 觉得 这 种 交互 难以 理解 ， 请 
放心 ， 很 多 人 都 遇 到 相同 的 问题 。 不 过 读者 也 要 时 刻 鼓励 自己 去 掌握 它 。 


12.16 Aa 


为 了 处 理 中 断 ， 操 作 系统 需要 保存 处 理 器 状态 、 确 定 发 出 中 断 的 设备 并 为 相应 的 设备 提供 处 理 程 
序 。 由 于 高 级 语言 (比如 C 语言 ) 不 提供 直接 操纵 处 理 器 或 者 协 处 理 器 寄存 器 的 方法 ， 所 以 一 些 中 断 
进程 代码 并 不 是 用 C 语言 写 的 。 当 然 示例 系统 也 不 是 所 有 的 中 断代 码 都 用 汇编 语言 写 的 ， 它 把 中 断 分 
配器 分 成 了 两 个 部 分 : 低层 部 分 是 用 汇编 写 的 ， 高 层 部 分 则 是 用 C 语言 写 的 。 

分 配器 捕获 中 断 ， 保 存 寄 存 器 状态 ， 确 定 请 求 中 断 的 设备 并 把 控制 权 交 给 合适 的 高 层 中 断 处 理 程 
序 。 当 高 层 中 断 处 理 程序 返回 时 ， 控 制 权 返 回 到 重新 加 载 寄 存 器 的 分 配器 并 执行 恢复 状态 的 特殊 指令 ， 
最 后 返回 给 被 中 断 的 程序 。 

多 个 规则 控制 着 中 断 过 程 。 首 先 ， 中 断代 码 不 能 让 中 断 禁 止 任意 长 的 时 间 ， 这 样 会 使 设备 无 法 使 
用 。 中 断 时 间 的 长 度 取 决 于 连接 到 系统 的 设备 ， 而 不 是 运行 的 设备 本 身 。 其 次 ， 中 断代 码 可 能 有 空 进 
程 运行 ， 它 决 不 能 调用 会 使 执行 程序 离开 当前 或 就 绪 状 态 的 函数 。 再 次 ， 中 断 处 理 程序 不 能 显 式 地 开 
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启 中 断 。 

尽管 开启 中 断 是 禁止 的 ， 但 在 一 个 等 待 的 进程 变 成 就 绪 状 态 时 ， 中 断 处 理 程序 必须 进行 重新 调度 。 
这 样 做 就 能 保持 调度 不 变 原则 ， 同 时 这 也 意味 着 一 个 进程 等 待 VO 操作 结束 后 会 被 唤醒 。 当 然 ， 系 统 
必须 保证 在 重新 调度 前 ， 全 局 数据 结构 是 合法 的 。 重 新 调度 不 会 引起 连锁 中 断 ， 因 为 每 个 进程 在 自己 
的 栈 中 最 多 只 有 一 个 中 断 。 


练习 

12.1 假设 一 个 中 断 处 理 程 序 包含 了 显 式 的 中 断 开 局 功能 ， 描 述 系统 可 能 遇 到 的 问题 。 

12.2 修改 中 断 处 理 程序 使 其 能 够 开启 中 断 ， 观 察 系统 经 过 多 长 时 间 会 崩溃 。 感 到 惊讶 吗 ? 具体 确认 系统 
崩溃 的 原因 〈 注 意 : 本题 中 的 关闭 计时 器 设备 将 在 第 13 章节 讨论 ) 。 

12.3 设想 一 个 处 理 器 ， 当 中 断 发 生 时 ， 其 硬件 能 够 自动 地 将 上 下 文 切换 到 一 个 特殊 的 中 断 进 程 中 。 这 个 
中 断 进 程 的 唯一 目的 是 执行 中 断代 码 。 试 解释 这 样 的 操作 系统 是 更 容易 设计 还 是 更 难 设 计 。 提 示 : 
中 断 进程 是 否 允 许 重新 调度 ? 

12.4 本 章 曾 提 及 一 些 系统 会 为 每 个 设备 分 配 一 个 独立 的 中 断 地 址 并 将 硬件 的 控制 权 直接 交 给 处 理 程序 。 
因此 ， 分 配 软件 就 不 需要 了 。 这 种 设计 的 主要 缺点 是 什么 ? 

12.5 假设 有 8 个 设备 ， 每 个 设备 接收 字符 的 速度 是 115 Kbaud (115 千 位 / 秒 ， 或 大 约 11 500 字符 / 秒 ) ， 
计算 每 个 中 断 要 多 少 毫秒 ? 
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我 们 没有 时 间 慢 慢 来 。 
Eugene Ionesco 
13.1 引言 
前 面 的 章节 介绍 了 操作 系统 的 两 个 重要 方面 : 一 个 是 提供 并 发 处 理 机 制 的 处 理 器 管理 系统 ; 一 个 


是 允许 将 内 存 块 动态 分 配 和 释放 的 内 存 管理 器 。 第 12 章 介绍 了 中 断 处 理 。 该 章 介绍 了 中 断 处 理 规则 ， 
描述 了 当中 断 发 生 时 ， 操 作 系 统 如 何 获取 控制 权 ， 并 解释 控制 如 何 由 分 配器 传递 给 特定 设备 的 中 断 处 
理 程序 。 

本 章 将 继续 讲述 中 断 处 理 ， 介 绍 计时 器 硬件 和 操作 系统 如 何 使 用 实时 机 人 制 来 提供 具有 控制 定时 
事件 能 力 的 进程 。 本 章 介绍 两 个 基本 概念 : 增 量 链 表 数据 结构 和 进程 抢占 。 它 们 解释 了 操作 系统 如 
何 利用 时 钟 向 一 组 相同 优先 级 的 进程 提供 轮转 服务 。 后 续 的 章节 将 通过 介绍 其 他 VO 设备 来 深入 地 


介绍 中 断 。 


13.2 定时 事件 

许多 应 用 程序 都 使 用 定时 事件 。 比 如 ， 一 个 应 用 可 能 打开 一 个 窗口 来 显示 一 条 消息 ， 让 窗口 在 屏 
幕 上 显示 5 秒 ， 然 后 关闭 窗口 。 一 个 要 求 用 户 输入 密码 的 应 用 程序 如 果 没 有 得 到 用 户 的 响应 ， 可 能 需 
要 在 30 秒 内 关闭 。 部 分 操作 系统 也 使 用 定时 事件 。 比 如 ， 许 多 网 络 协议 都 要 求 发 送 方 在 指定 时 间 内 没 
有 收 到 响应 时 重 发 请 求 。 类 伏地 ， 如 果 一 个 外 部 设备 ， 比 如 一 台 打印 机 ， 在 一 段 时 间 内 都 处 于 无 连接 
状态 ， 则 操作 系统 就 应 该 通知 用 户 。 如 果 一 个 租 入 式 系统 没有 独立 硬件 机 制 ， 则 操作 系统 使 用 定时 事 
件 来 记录 当前 的 日 历 日 期 和 时 间 。 

因为 时 间 是 基础 ， 所 以 大 部 分 的 操作 系统 都 提供 必需 的 机 制 ， 使 应 用 程序 创建 和 管理 定时 事件 更 
容易 。 有 些 操作 系统 使 用 通用 的 异步 事件 范式 ， 在 其 中 ， 程 序 员 定 义 一 套 事件 处 理 程序 ， 在 事件 发 生 
时 操作 系统 调用 合适 的 处 理 程序 。 定 时 事件 很 符合 异步 范式 : 运行 中 的 进程 要 求 特定 事件 在 未 来 的 7 
时 间 单 元 内 出 现 。 有 些 系统 则 使 用 同步 事件 范式 ， 在 其 中 操作 系统 只 提供 延迟 ， 程 序 员 按 需 创建 额外 
的 进程 来 调度 事件 。 我 们 的 示例 系统 将 使 用 异步 的 方法 。 


13.3 ”实时 时 钟 和 计时 器 硬件 

Xinu 有 四 种 硬件 设备 与 时 间 有 关系 : 

。 处 理 器 时 钟 。 

。 实时 时 钟 。 

© 日 历时 钟 。 

。 间隔 定时 器。 

处 理 器 时 钟 ”术语 处 理 器 时 钟 指 的 是 产生 高 精度 周期 性 脉 串 (比如 方 波 ) 的 硬件 设备 。 处 理 器 时 钟 
控制 处 理 器 执行 指令 的 速率 。 为 了 最 小 化 硬件 设施 ， 低 端 嵌入 式 系统 经 常 使 用 处 理 器 时 钟 作为 计时 信号 
源 。 不 幸 的 是 ， 处 理 器 时 钟 频 率 使 用 起 来 不 是 很 方便 (因为 时 钟 脉 冲 快 ， 并 且 频 率 不 是 10 PRUA). 

实时 时 钟 ”实时 时 钟 与 CPU 相互 独立 ， 并 且 以 1 毫秒 为 时 间 间 隔 产 生 脉冲 〈 即 ，1000 次 / 秒 ) ， 每 
个 脉冲 产生 一 次 中 断 。 一 般 来 说 ， 实 时 时 钟 硬件 并 不 对 脉冲 进行 计数 一 一 如 果 操作 系统 需要 计算 流逝 
的 时 间 ， 则 当 每 个 时 钟 中 断 发 生 时 ， 系 统 必须 对 计数 器 加 1。 

日 历时 钟 ”技术 上 ,日 历时 钟 是 一 个 精密 计时 器 ， 它 可 以 精确 地 计算 出 流逝 的 时 间 。 其 硬件 包括 
一 个 内 部 实时 时 钟 和 一 个 测量 脉冲 的 计数 器 。 与 普通 的 时 钟 一 样 ， 时 间 可 以 被 修改 。 然 而 ， 一 旦 设 定 ， 
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它 的 运行 就 与 处 理 器 独立 ， 只 要 系统 不 断 电 它 就 能 够 持续 运作 ( 某 些 装 置 会 配备 一 个 小 电池 来 确保 在 
外 部 电源 关闭 时 时 钟 依然 能 够 正常 工作 ) 。 不 像 其 他 时 钟 ， 日 历时 钟 并 不 会 产生 中 断 ， 要 使 用 它 ， 处 理 
器 必须 设置 或 者 查询 计数 器 。 

间隔 计时 器 “间隔 计时 器 ， 有 时 又 称 为 倒计时 器 或 计时 器 ， 它 由 一 个 内 部 实时 时 钟 和 一 个 计数 器 
构成 。 为 了 使 用 计时 器 ， 系 统 将 计数 器 初始 化 为 一 个 正 值 。 每 产生 一 个 实时 时 钟 脉冲 ,计数 器 减 1， 
当 计 数 器 的 值 为 0 时 产生 中 断 。 正 计时 器 要 求 操作 系统 将 其 初始 化 为 0 并 且 设 置 一 个 上 限 值 。 正 如 其 
名 字 ， 正 计时 器 将 计数 器 加 1， 当 计数 器 达到 上 限 值 时 中 断 操 作 系 统 。 

相对 于 实时 时 钟 来 说 ， 计 时 器 的 主要 优点 在 于 更 低 的 中 断 负载 。 实 时 时 钟 定 期 中 断 ， 即 使 下 一 个 
事件 是 在 许多 时 间 间 隔 之 后 才 会 发 生 。 计 时 器 只 有 在 事件 调度 时 才 会 产生 中 断 。 而 且 ， 计 时 器 比 实时 
时 钟 更 灵活 ， 因 为 它 可 以 模拟 实时 时 钟 。 例 如 ， 为 了 模拟 一 个 每 秒 尺 次 脉冲 的 实时 时 钟 ， 可 以 将 计时 
器 设置 为 每 1/R 秒 产生 一 次 中 断 。 以 上 可 以 总 结 为 : 

可 用 于 产生 计时 事件 的 硬件 包括 : 实时 时 钟 和 间隔 计时 器 。 通 过 计算 两 次 脉冲 之 间 的 时 

间 T， 操 作 系 统 可 以 使 用 计时 器 模拟 实时 时 钟 ， 并 将 每 个 中 断 的 计时 器 重新 设置 为 7。 

E2100L 硬件 包含 有 一 个 间隔 计时 器 。 本 章 后 面 的 示例 代码 说 明了 使 用 计时 器 模拟 实时 时 钟 是 很 简 
单 的 事情 。 


13.4 处 理 实时 时 钟 中 断 

每 个 脉冲 都 会 产生 一 次 实时 时 钟 中 断 ， 中 断 不 计数 ， 也 不 会 积累 。 同 样 ， 如 果 使 用 计时 器 模拟 
实时 时 钟 ， 计 时 器 也 不 会 积累 中 断 。 在 任何 一 种 情况 下 ， 如 果 处 理 器 不 能 在 下 一 次 中 断 到 来 之 前 对 
上 一 次 的 中 断 做 出 反应 ， 处 理 器 将 不 会 收 到 第 二 次 中 断 。 更 重要 的 是 ， 硬 件 不 会 检测 和 报告 这 样 的 
错误 。 

如 果 处 理 器 花费 了 太 长 的 时 间 来 处 理 实时 时 钟 中 断 ， 或 者 处 理 了 中 断 关闭 时 间 大 于 一 个 

时 钟 周期 的 中 断 ， 该 中 断 就 会 被 忽略 ， 同 时 没有 错误 会 被 报告 。 

对 于 系统 设计 人 员 来 说 ， 实 时 时 钟 硬件 的 操作 会 有 两 个 重要 的 后 果 。 首 先 ， 因 为 系统 必须 能 够 在 
两 次 实时 时 钟 中 断 之 间 执 行 许多 条 指令 ， 所 以 处 理 器 的 处 理 速度 要 远 高 于 实时 时 钟 的 频率 。 其 次 ， 实 
时 时 钟 中 断 可 能 成 为 潜在 的 错误 源 。 如 果 操 作 系统 无 法 响应 中 断 ， 那 么 时 钟 中 断 将 会 漏 掉 而 对 计时 产 
生 影 响 。 这 样 的 错误 是 不 易 察 觉 的 。 

因此 ， 系 统 必须 设计 成 可 以 快速 响应 时 钟 中 断 。 有 些 硬 件 通过 将 实时 时 钟 中 断 设置 为 最 高 优先 级 
来 解决 这 个 问题 。 因 此 ， 如 果 L/O 设备 和 时 钟 设 备 同 时 产生 中 断 ， 处 理 器 就 会 先 处 理 时 钟 中 断 ， 当 时 
钟 中 断 响应 完 后 再 处 理 I/O 中 断 。 


13.5 延 时 与 抢占 

接 下 来 ,我 们 将 关注 操作 系统 使 用 时 间 的 两 种 方式 : 

。 定时 延迟 。 

。 抢占 。 

定时 延迟 ”操作 系统 允许 任意 的 进程 请 求 一 个 定时 延迟 。 当 进程 请 求 一 个 定时 延迟 时 ， 操 作 系 统 
把 进程 从 当前 状态 移入 到 一 个 新 的 状态 (休眠) ， 并 在 特定 时 间 调 度 唤 醒 事件 来 重启 该 进程 。 当 唤醒 
事件 出 现时 ， 进 程 对 CPU 的 使 用 变 为 合法 ， 并 根据 调度 策略 来 运行 。 后 面 的 各 节 将 介绍 进程 如 何 进入 
休眠 状态 以 及 如 何在 正确 的 时 间 被 唤醒 。 

抢占 “与 第 5 章 讲述 的 调度 策略 一 样 ， 操 作 系 统 中 的 进程 管理 器 使 用 抢占 机 制 来 实现 时 间 分 片 ， 
进而 保证 在 轮转 机 制 下 ， 各 个 进程 有 相同 的 优先 级 。 系 统 定义 了 一 个 最 大 时 间 片 7， 进 程 在 时 间 片 7 
内 可 以 执行 而 不 受 其 他 进程 的 影响 。 当 从 一 个 进程 切换 到 另 一 个 进程 时 ， 调 度 器 会 在 未 来 7 时 间 后 调 
度 抢占 事件 。 当 抢占 事件 发 生 时 ， 事 件 处 理 程 序 简单 地 调用 reshed。 

为 了 理解 抢占 的 工作 机 制 ， 我 们 假定 系统 包含 许多 具有 相同 优先 级 的 进程 。 当 一 个 进程 执行 时 ， 
其 他 有 着 相同 优先 级 的 进程 都 在 就 绪 链 表 里 。 在 这 种 情况 下 ， 调 用 reshed 把 当前 进程 放 在 就 绪 链表 的 
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最 后 ， 即 其 他 具有 相同 优先 权 的 进程 后 面 ， 并 切换 到 链表 的 第 一 个 进程 。 因 此 ， 如 果 上 个 相同 优先 级 
的 进程 准备 使 用 处 理 器 ， 则 在 任何 进程 接受 更 多 服务 前 ， 所 有 个 进程 都 将 最 多 执行 一 次 时 间 片 。 

时 间 片 的 长 度 应 该 为 多 少 呢 ? 时 间 片 的 长 度 决 定 了 抢占 粒度 。 使 用 短 的 时 间 片 使 粒度 变 小 。 小 的 
粒度 会 使 相同 优先 级 的 各 个 进程 按 几乎 相同 的 速度 执行 。 然 而 ， 小 的 粒度 也 会 造成 负载 的 增加 因为 系 
统 经 常 进行 上 下 文 的 切换 。 大 的 粒度 可 以 减 小 上 下 文 切换 的 负载 ， 但 也 会 让 一 个 进程 切换 到 下 一 个 进 
程 前 占有 人 处理 器 太 长 时 间 。 

已 证 明 ， 在 大 部 分 的 系统 中 ， 为 了 抢占 ， 进 程 很 少 使 用 处 理 器 太 长 时 间 。 相 反 ， 进 程 通常 执行 K 
0 或 执行 系统 函数 ， 比 如 wait， 导 致 重新 调度 。 事 实 上 ， 进 程 一 般 在 时 间 片 结束 前 进程 自动 放弃 对 
CPU 的 控制 。 更 主要 的 是 ， 因 为 输入 和 输出 比 处 理 慢 ， 进 程 的 大 部 分 时 间 都 用 于 等 待 VO 完成 。 

没有 抢占 ， 操 作 系 统 将 无 法 从 执行 无 限 循环 的 进程 那里 夺回 CPU 的 控制 权 。 


13.6 使 用 计时 器 来 模拟 实时 时 钟 

我 们 使 用 术语 时 钟 滴答 (clock tick) 来 指 代 实 时 时 钟 中 断 ， 用 术语 滴答 频率 (tick rate) 来 表明 时 
钟 滴 答 的 频率 。 因 为 它 是 使 用 计时 器 人 硬件 来 模拟 实时 时 钟 ， 我 们 可 以 选择 一 个 合适 的 滴答 频率 。Xinu 
选择 每 Ims 让 时 钟 滴答 一 次 。 因 此 ， 当 计时 器 中 断 发 生 时 ， 系 统 重 置 定时 器 延 时 为 lms (BO. 001s)， 
从 而 使 系统 在 1ms 后 再 次 产生 一 个 中 断 。 

不 幸 的 是 ，E2100L 中 的 计时 器 硬件 与 很 多 小 型 能 人 式 系 统 中 使 用 的 硬件 相同 ; 硬件 使 用 处 理 器 时 
钟 来 对 计数 器 加 1。 就 是 说 ， 间 隔 计时 器 对 处 理 器 周期 进行 度量 。 如 果 处 理 器 时 钟 每 秒 包 含 P 7818, 
那么 计时 器 每 秒 计算 P 次 。 为 了 数 1ms， 我们 必须 将 计时 器 设置 为 1ms 内 的 处 理 器 周期 数 。 

幸运 的 是 ， 在 E2100L 硬件 中 处 理 器 时 钟 的 频率 是 知道 的 ， 这 就 使 我 们 可 以 很 容易 地 计算 1 毫秒 内 
人 处理 器 周期 的 数值 。 在 示例 程序 中 ， 这 个 值 是 提前 计算 好 的 ， 保 存在 符号 常量 CLKCYCS_PER_TICK 
中 。 当 计时 器 中 断 产生 时 ， 计 时 器 被 重新 设置 为 之 前 的 值 加 CLKCYCS_PER_TICK， 这 样 在 1ms 以 后 就 
会 引起 另 一 次 的 中 断 。 


13.7 抢占 的 实现 

示例 程序 实现 了 抢占 和 定时 延迟 。 在 检查 这 段 代码 之 前 ， 我 们 先 讨 论 下 这 两 种 方式 的 实现 。 抢 占 
是 最 容易 理解 的 。 预 先 定义 的 常量 QUANTUM 定义 了 一 个 时 间 片 内 时 钟 滴答 的 次 数 。 当 从 一 个 进程 切 
换 到 另外 一 个 进程 时 ，reshed 将 全 局 变量 preempt 设置 为 QUANTUM。 每 次 模拟 时 钟 滴答 时 ， 时 钟 中 断 
处 理 程序 将 preempt 的 值 减 1。 当 它 减 为 0 时， 时 钟 中 断 处 理 程序 将 preempt 重新 设置 为 QUANTUM， 并 
调用 reshed。 调 用 resched 后 ， 处 理 程 序 从 中 断 返 回 。 

对 reshed 的 调用 会 有 两 种 可 能 的 结果 。 第 一 ， 如 果 当 前 执行 的 进程 是 唯一 拥有 最 高 优先 级 的 进 
程 ， 则 reshed 将 立即 返回 ， 中 断 处 理 程序 将 返回 ， 当 前 进程 将 在 中 断 处 继续 执行 。 第 二 ， 如 果 另 一 
个 就 绪 进程 与 当前 进程 有 相同 的 优先 级 ， 则 reshed 将 切换 到 新 进程 。 最 终 ，reshed 将 切换 回 被 中 断 
的 进程 。 将 preempt 赋值 为 QUANTUM 可 以 处 理 当 前 进程 持续 运行 的 问题 。 这 样 的 赋值 是 必要 的 ， 因 
为 reshed 只 在 进程 切换 时 重 置 抢占 计数 器 ”。 重 置 抢占 计数 器 可 以 防止 在 一 个 进程 无 限 执行 时 抢占 计 
DE aS o 
13.8 使 用 增 量 链表 对 延迟 进行 有 效 管理 

为 了 实现 延迟 ， 操 作 系统 必须 维护 申请 延 时 进程 的 集合 。 每 个 进程 根据 它 申 请 的 时 间 定义 一 个 延 


迟 ， 任 何 进程 可 以 在 任何 时 间 提 出 申请 。 当 一 个 进程 的 延迟 过 期 时 ， 系 统 将 该 进程 的 状态 转换 为 就 绪 
并 调用 resched。 











©. resched 的 代码 见 5.6 节 。 
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每 个 进程 都 有 特定 的 延迟 请 求 ， 操 作 系 统 如 何 维护 延迟 进程 集合 呢 ? 操作 系统 无 法 在 每 一 个 时 钟 
滴答 内 搜索 完 任 意 长 的 睡眠 进程 链表 。 因 此 ， 需 要 设计 高 效 的 数据 结构 ， 这 种 结构 只 需要 时 钟 中 断 处 
理 程序 在 每 一 个 时 钟 滴答 内 执行 儿 条 指令 来 检测 请 求 特定 延迟 的 进程 集合 。 

解决 方案 是 使 用 一 种 称 为 增 量 链表 的 数据 结 购 。 增 量 链表 包含 一 个 进程 集合 ， 并 且 链 表 是 按 每 个 
进程 唤醒 的 时 间 进 行 排序 。 使 计算 更 高 效 的 方法 是 使 用 相对 时 间 而 非 绝对 时 间 。 也 就 是 说 ,不 是 存储 
进程 被 唤醒 的 绝对 时 间 ， 而 是 在 增 量 链表 中 存储 进程 相对 于 前 一 个 进程 必须 延迟 的 多 余 的 时 间 。 

增 量 链表 中 第 一 个 进程 的 键 值 指定 了 相对 于 当前 时 间 ， 该 进程 需要 等 待 的 时 钟 滴答 数 。 

其 他 每 一 个 进程 的 键 值 指定 了 相对 于 各 自 的 前 一 个 进程 ， 该 进程 需要 等 待 的 时 钟 滴答 数 。 

例如 ,假设 进程 A、B、C、D 分 别 请 求 延迟 6、12、27、50 个 时 钟 滴答 。 而 且 假 设 这 样 的 请 求 在 
几乎 相同 时 间 做 出 ( 即 ， 在 一 个 时 钟 滴答 内 )。 图 13-1 显示 了 增 量 链表 的 结果 。 220 

BHO ”进程 下 一 个 


aV 
LIL 


图 13-1 有 4 个 进程 的 增 量 链表 概念 图 ， 图 中 各 进程 的 延迟 分 别 为 6、12、27 、50 个 时 钟 滴答 


给 定 一 个 增 量 链表 ， 就 可 以 通过 计算 部 分 键 值 的 和 找到 每 个 进程 被 唤醒 的 时 间 。 在 图 13-1 中 ， 进 
程 A 被 唤醒 的 时 间 为 6， 进 程 B 被 唤醒 的 时 间 为 6 +6, PERE C 被 唤醒 的 时 间 为 6+6+15， 进 程 D 被 唤 
本 的 时 间 为 6+6+15 +23。 


13.9 增 量 链表 的 实现 

与 其 他 进程 链表 一 样 ， 延 迟 进程 的 增 量 链表 位 于 queuetab 结构 中 。 全 局 变量 sleepq 包含 睡眠 进程 
增 量 链表 的 队列 DD。 在 每 一 个 时 钟 滴答 ， 时 钟 中 断 处 理 程序 递减 sleepq 中 第 一 项 的 键 值 。 如 果 该 值 变 
为 0， 则 时 钟 处 理 程序 调用 wakeup 将 第 一 个 进程 唤醒 ， 因 为 它 的 延迟 时 间 已 到 。 

睡眠 进程 队列 中 的 第 一 个 进程 是 最 先 会 被 唤醒 的 进程 ， 它 的 键 值 保 存 了 唤醒 之 前 会 经 历 的 时 钟 滴 
答 。 因 为 链表 中 所 有 后 续 进 程 的 延迟 都 是 与 第 一 个 延迟 相关 的 ， 所 以 时 钟 中 断 只 需 递减 第 一 个 进程 的 
值 ， 并 且 不 需要 扫描 整个 链表 。 

使 用 增 量 链表 的 函数 看 起 来 好 像 很 直接 ， 但 是 实现 起 来 可 能 需要 一 些 技巧 。 因 此 ， 程 序 员 必 须 关 
注 每 一 个 细节 。 就 像 下 面 将 介绍 的 insertd 函数 ， 它 需要 3 个 参数 : 进程 ID (pid), AA ID (q) 44E 
US (key), insertd 计算 一 个 相对 延迟 ， 然 后 将 指定 的 进程 插 人 到 sleepq 队列 中 合适 的 位 置 。 在 该 代码 
中 ， 变 量 next 扫描 增 量 链表 搜寻 插入 新 进程 的 位 置 。 

从 观察 可 得 ， 变 量 key 的 初始 值 定义 了 与 当前 时 间 相 关 的 延迟 。 因 此 ， 变 量 key 与 增 量 链表 中 第 
一 项 的 键 值 进行 比较 。 然 而 ， 链 表 中 的 后 续 键 值 说 明 延 迟 与 前 驱 的 键 值 相关 联 。 因 此 ， 链 表 中 后 续 结 
点 的 键 值 不 能 直接 与 变量 key 的 值 进 行 比较 。 为 了 实现 延迟 的 可 比较 性 ， 当 搜索 进行 时 ，insertd 函数 
将 从 key 中 减 去 相对 延迟 量 ， 以 保证 不 变性 : 

在 搜索 的 任意 时 刻 ，key 和 queuetab[ next]. qkey 都 指定 了 相对 于 “下 一 个 进程 ”的 前 一 
个 进程 的 相对 延迟 时 间 。 


/* insertd.c - insertd */ 


#include <xinu.h> 


* insertd - Insert a process in delta list using delay as the key 








122 - 第 13 章 实时 时 钟 管理 


status insertd( /* assumes interrupts disabled */ 
pid32 pid, /* ID of process to insert ad 
qidi6 Wi /* ID of queue to use i 
int32 key /* delay from "now" (in ms.) ia 
) 
{ 
int next; /* runs through the delta list */ 
int prev; /* follows next through the list*/ 


if (isbadgid(q) || isbadpid(pid)) ( 
return SYSERR; 
} 


prev = queuehead(q) ; 

next = queuetab[queuehead(q)].qnext; 

while ((next != queuetail(q)) && (queuetab[next].qkey <= key)) { 
key -= queuetab[next].qkey; : 
prev = next; 
next = queuetab[next] .qnext; 

} 


/* Insert new node between prev and next nodes */ 


queuetab[pid].qnext = next; 
queuetab[pid].qprev = prev; 
queuetab[pid] .qkey = key; 
queuetab[prev].qnext = pid; 

. queuetab[next].qprev = pid; 
if (next != queuetail(q)) { 

queuetab[next].qkey -= key; 

} 


return OK; 


} 

尽管 在 搜索 过 程 中 ，insertd 显 式 地 检查 链表 的 尾部 ， 但 在 不 影响 运行 的 情况 下 ， 该 测试 可 以 被 忽 
略 。 记 住 ， 链 表 尾 部 的 键 值 比 任何 要 搬入 的 键 值 都 长 。 只 要 这 个 断言 成 立 ， 当 到 达 尾 部 时 循环 就 会 终 
止 。 因 为 insertd 不 会 检查 参数 的 值 ， 所 以 测试 就 可 以 安全 进行 。 

insertd 遍历 链表 ， 当 它 发 现 待 插入 结 点 的 相对 延迟 值 小 于 链表 中 某 一 结 点 时 ， 会 在 该 位 置 插 入 新 
的 结 点 进 链表 。 同 时 insertd 必须 在 链表 的 剩余 结 点 中 减 去 由 于 新 结 点 插入 所 带 来 的 延迟 值 的 改变 。 为 
此 ，insertd 在 下 一 个 结 点 的 键 值 中 减 去 了 待 插入 结 点 的 键 值 。 这 里 的 减法 操作 必须 保证 产生 一 个 非 负 
数 ， 这 是 因为 循环 终止 的 条 件 要 保证 待 插 人 的 键 值 小 于 链表 上 的 键 值 。 


13. 10 ”将 进程 转 入 睡眠 


应 用 程序 不 会 调用 insertd， 也 不 会 直接 访问 睡眠 队列 。 相 反 ， 应 用 程序 调用 系统 调用 sleep 或 
sleepms 来 请 求 一 个 延迟 。 这 两 个 函数 的 不 同 在 于 它们 参数 的 粒度 : sleepms 的 参数 以 毫秒 为 单位 定义 
HEIR, sleep 的 参数 以 秒 为 单位 定义 延迟 。 在 32 位 的 处 理 器 上 ， 以 毫秒 为 单位 测量 延迟 可 以 给 延迟 定 
义 一 个 很 好 的 范围 。 一 个 无 符号 32 位 整数 可 以 表示 的 最 大 延迟 为 1100 小 时 (49 x), Mi, ERA 
式 系 统 中 使 用 16 位 整数 ， 毫 秒 级 延迟 意味 着 调用 者 只 能 表示 32 秒 的 延迟 。 因 此 ，16 位 处 理 器 的 操作 
系统 通常 使 用 较 大 粒度 的 测量 标准 (如 L/10 秒 )。 

为 了 避免 代码 的 重复 ，sleep 函数 将 参数 乘 以 1000 并 调用 sleepms。sleep 的 一 个 有 价值 的 方面 是 检 
查 它 的 参数 大 小 : 避免 整数 溢出 ，sleep 将 延迟 设置 为 一 个 可 以 用 一 个 32 位 无 符号 整数 表示 的 值 。 如 
果 调 用 者 定义 了 一 个 更 大 的 值 ，sleep 会 返回 SYSERR, 

sleepms 将 调用 进程 插入 到 睡眠 进程 的 增 量 链表 中 。 当 它 放 进 睡眠 进程 的 增 量 链表 中 时 ， 进 程 状态 
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将 不 再 是 就 绪 或 当前 。 应 该 将 进程 转 入 什么 状态 呢 ? 睡 眼 和 挂 起 不 同 ， 睡 眠 是 在 等 待 一 条 消息 ， 或 等 
待 一 个 信号 量 。 因 此 ， 由 于 没有 任何 一 个 状态 能 够 满足 进程 当前 的 状态 ， 所 以 添加 一 个 新 的 状态 。 我 
们 把 这 种 新 的 状态 称 为 睡眠 ， 并 把 它 放 在 符号 常量 PR_SLEEP 中 。 图 13-2 显示 了 包括 睡眠 状态 的 状态 
转换 。 


















sleep 
send receive 
接收 状态 
wait 





resched 





suspend 


suspend 


create 


图 13-2 包含 了 睡眠 状态 的 状态 转换 


下 面 的 文件 sleep. c 展示 了 sleepms 的 执行 ， 它 包括 一 个 特别 的 情况 : 如 果 一 个 进程 将 延迟 定义 为 
0, sleepms 将 会 立即 调用 reshed。 和 否则 ，sleepms 调用 insertd 将 当前 进程 插入 到 睡眠 进程 的 增 量 链表 中 ， 
并 将 进程 的 状态 改 为 睡眠 ， 调 用 reshed 允许 其 他 进程 执行 。 


/* sleep.c - sleep sleepms */ 


#include <xinu.h> 


#define MAXSECONDS 4294967 /* max seconds per 32-bit msec */ 
thoes aaa eco ee eR pM EIC IRIS SS eee 
* sleep - Delay the calling process n seconds 
(QA ——————————————————————————— 
*/ 
syscall sleep( 

uint32 delay /* time to delay in seconds */ 

) 

{ 


if (delay > MAXSECONDS) { 
return(SYSERR); 
) 
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sleepms (1000*delay) ; 


return OK; 
} 
/* p—"E———————————————————————————Á PRI SS 
* sleepms - Delay the calling process n milliseconds 
S SEI I INE REL ——————————————ÓM—————Ó Ha 
*7 
syscall sleepms( 
uint32 delay /* time to delay in msec. Rif 
) 
{ 
intmask mask; /* saved interrupt mask *7 


mask = disable(); 

if (delay == 0) { 
yield(); 
restore (mask); 
return OK; 

} 


/* Delay calling process */ 


if (insertd(currpid, sleepq, delay) == SYSERR) ( 
restore (mask); 
return SYSERR; 

} 

proctab[currpid].prstate = PR SLEEP; 

resched(); 

restore (mask); 

return OK; 


19.11 定时 消息 接收 

Xin 拥有 一 个 在 计算 机 网 络 中 非常 有 用 的 机 制 : 定时 消息 接收 。 本 质 上 该 机 制 允 许 进 程 等 待 规定 
好 的 时 间 长 度 或 消息 到 达 为 止 ， 以 先 出现 者 为 准 。 也 就 是 说 ， 这 种 机 制 执行 起 来 就 像 一 个 含有 等 待 最 
长 时 间 上 界 的 同步 接收 (receive) 函数 。 

定时 消息 接收 机 制 的 基本 原理 是 分 离 等 待 (disjunctive wait) : 进程 阻塞 直到 两 个 事 的 其 中 之 一 发 
生 。 很 多 网 络 协议 采用 分 离 等 待 以 实现 处 理 丢 包 的 超时 重 传 技术 。 当 发 送 者 发 送 一 个 消息 时 ， 它 也 同 
时 启动 计时 器 ， 然 后 等 待 回应 到 达 或 者 计时 器 超时 。 如 果 回 应 消息 先 到 ， 网 络 就 删除 定时 器 。 当 消息 
或 者 回应 消息 丢失 时 ， 计 时 器 到 期 ， 协 议 软件 就 重 传 请 求 的 副本 。 

在 Xin 中 ， 当 一 个 进程 请 求 定 时 接收 时 ， 该 进程 就 进入 睡眠 进程 队列 中 ， 与 其 他 的 睡眠 进程 一 样 。 
然而 ， 与 分 配 进 程 状 态 PR_SLEEP 不 同 的 是 ， 系 统 将 进程 置 于 状态 PR_RECTIM 中 以 指明 它 已 加 入 到 拥 
有 计时 模式 的 接收 中 。 如 果 睡 眠 定时 器 到 期 ， 进 程 就 像 其 他 睡眠 进程 一 样 被 唤醒 。 如 果 一 个 消息 在 延迟 
到 期 之 前 到 达 ， 函 数 send 就 调用 函数 unsleep 将 进程 从 睡眠 进程 队列 中 移 除 ， 然 后 继续 传送 消息 。 一 旦 
它 恢 复 执 行 ， 该 进程 就 检查 它 的 进程 表 项 来 查看 是 否 有 消息 到 达 。 如 果 没 有 消息 ， 定 时 器 就 会 到 期 。 

图 13-3 显示 了 一 个 定时 消息 接收 的 状态 图 ， 该 状态 图 拥有 一 个 新 状态 : TIMED-RECV, 

正如 我 们 已 经 见 到 的 ， 当 一 个 进程 处 于 定时 接收 状态 时 ,第 8 章 中 的 send? 函数 将 处 理 这 种 情况 。 
因此 ， 我 们 只 需 检查 函数 recvtime 和 函数 unsleep 的 代码 。 除 了 之 前 要 调用 函数 resched 外 ， 函 数 recvtime 
与 函数 receive? 几乎 一 样 ， 它 调用 函数 insertd 以 将 调用 进程 插入 睡眠 进程 队列 中 ， 分 配 状 态 PR_RECTIM 





© send 可 以 在 8.5 节 找 到 。 
© receive 可 以 在 8. 6 节 找 到 。 
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状态 而 不 是 状态 PR_RECV。 文件 recvtime. c 中 有 该 函数 的 代码 。 


wakeup 


















定时 接收 状态 


等 待 状态 


resched 


recvtime 





receive 





当前 状态 


suspend 


create 


图 13-3 会 定时 接收 状态 的 状态 转换 


/* recvtime.c - recvtime */ 


#include <xinu.h> 


[*----------2-2--2-22-2-222--22-2-2-222-22-2-2-2---2--2-2-2-22-22--22-2-22-2-2-2--2-2-2-2-2-2-2-2-2-2-2-2-2------ 
* recvtime - wait specified time to receive a message and return 
tele C RUE i SD nD dul aM CCS M EPI M E C I a EUR qe qm. 
i 
umsg32 recvtime( 
int32 maxwait /* ticks to wait before timeout 
) 
( 


intmask mask; 
struct procent *prptr; 
umsg32 msg; 


if (maxwait < 0) ( 
return SYSERR; 


/* 
/* 
/* 


saved interrupt mask 
tbl entry of current process 
message to return 


wy 


*/ 
iii 
ai 
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228 


. 
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mask = disable(); 
/* Schedule wakeup and place process in timed-receive state */ 


prptr = &proctab[currpid]; 
if (prptr->prhasmsg == FALSE) { /* if message waiting, no delay */ 
if (insertd(currpid,sleepq,maxwait) == SYSERR) ( 
restore (mask); 
return SYSERR; 
} 
prptr->prstate = PR_RECTIM; 
resched(); 


/* Either message arrived or timer expired */ 


if (prptr-»prhasmsg) { 
msg - prptr-»prmsg; /* retrieve message E 
prptr-»prhasmsg - FALSE;/* reset message indicator xg 
) else ( 
msg - TIMEOUT; 
} 
restore (mask) ; 
return msg; 


) 
函数 unsleep 将 一 个 进程 从 睡眠 进程 队列 中 移 除 。 如 果 有 其 他 进程 位 于 队列 中 ， 函 数 unsleep 必须 


调整 随后 进程 的 延迟 值 以 抵消 被 移 除 的 进程 。unsleep. c 文件 有 该 函数 的 代码 。 


/* unsleep.c - unsleep */ 


#include <xinu.h> 


/* ————————————————————————————————————————— 
* unsleep - Remove a process from the sleep queue prematurely by 
* adjusting the delay of successive processes 
Mouse less ee aC EC IR DE MEC UE M ESI SEC E RD CU enr LE 
a 
syscall unsleep( 
pid32 pid /* ID of process to remove ald 
) 
{ 
intmask mask; /* saved interrupt mask *7 
struct procent *prptr; /* ptr to process’ table entry */ 
pid32 pidnext; /* ID of process on sleep queue */ 
/* that follows the process that*/ 
/* is being removed */ 


mask = disable(); 

if (isbadpid(pid)) { 
restore (mask); 
return SYSERR; 


/* Verify that candidate process is on the sleep queue */ 


prptr - &proctab[pid]; 
if ((prptr-»prstate!-PR SLEEP) && (prptr-»prstate!-PR RECTIM)) ( 
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restore (mask); 
return SYSERR; 
} 


/* Increment delay of next process if such a process exists */ 


pidnext = queuetab[pid] .qnext; 


if (pidnext < NPROC) { 
queuetab[pidnext].qkey += queuetab[pid] .qkey; 


} 


getitem(pid) ; /* unlink process from queue */ 
restore (mask) ; 
return OK; 

} 


13.12 ”唤醒 睡眠 进程 

时 钟 中 断 处 理 程序 在 每 一 个 时 钟 滴答 递减 sleepq 中 的 第 一 个 键 值 的 计数 值 ， 当 延迟 为 零 时 调用 
wakeup 唤醒 进程 。wakeup 必须 能 够 处 理 同一 时 间 多 个 进程 被 唤醒 的 情况 。 因 此 ，wakeup 在 所 有 键 值 为 
零 的 进程 踪 代 地 从 sleepq 中 移 除 进 程 并 再 次 调用 ready 以 确保 进程 符合 CPU 服务 标准 。 因 为 wakeup 
是 从 一 个 中 断 分 配器 中 调用 的 ， 所 以 它 假定 在 人 口 处 中 断 是 禁止 的 。 因 此 ， 在 调用 ready 之 前 wakeup 
不 能 显 式 地 禁止 中 断 。 一 旦 wakeup 将 进程 移 人 就 绪 链表 中 ， 它 就 调用 resched 重建 调度 不 变 式 并 允许 
另 一 个 进程 执行 。 


/* wakeup.c - wakeup */ 


#include «xinu.h» 


/* ——————————————————————————————————————————————————————————————————---- 
* wakeup - Called by clock interrupt handler to awaken processes 

; ——————————————————]U— M "€ AO, Oo ss, au m A oe sie rr ae ae rm ird Saw, 
"i 

void wakeup (void) 

{ 


/* Awaken all processes that have no more time to sleep */ 


while (nonempty(sleepq) && (firstkey(sleepq) <= 0)) { 
ready (dequeue (sleepq) , RESCHED NO); 
} 
resched () ; 
return; 
} 


13.13 时钟 中 断 处 理 

现在 我 们 来 准备 测试 时 钟 中 断 程序 clkhandler。 每 一 次 调用 它 ， 模 拟 时 钟 就 发 生 中 断 。 正 如 前 面 所 
描述 的 ， 时 钟 中 断 处 理 程序 递减 sleepq (假定 sleepq AES) 中 第 一 个 进程 的 剩余 时 间 。 如 果 剩 余 延 迟 
Wy, clkint 调用 wakeup 从 睡眠 队列 中 移 除 所 有 延迟 时 间 为 零 的 进程 并 将 它们 置 于 就 绪 (ready) 状 
态 。 最 后 ，clkint 递减 抢占 计数 器 ， 如 果 抢 占 计 数 器 为 零 ， 就 调用 resched。 


/* clkhandler.c - clkhandler */ 





#include <xinu.h> 


EEE SATO RISO ee RAEE ROTTO VPI 
* clkhandler - handle clock interrupt and process preemption events 
* as well as awakening sleeping processes 
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interrupt clkhandler (void) 


{ 
clkupdate(CLKCYCS PER TICK); 


/* record clock ticks */ 
clkticks++; 
/* update global counter for seconds */ 


if (clkticks == CLKTICKS PER SEC) ( 
clktime++; 
clkticks = 0; 


/* If sleep queue is nonempty, decrement first key; when the Li) 
/* key reaches zero, awaken a sleeping process i 


if (nonempty(sleepq) && (--firstkey(sleepq) <= 0)) { 
wakeup () ; 


/* Check to see if this proc should be preempted */ 


if (--preempt <= 0) { 
preempt = QUANTUM; 
resched () ; 

} 


return; 


13.14 “时钟 初始 化 

时 钟 初始 化 例 程 clkinit 执行 4 个 主要 功能 。 第 一 ， 它 分 配 一 个 用 以 保存 睡眠 进程 增 量 链表 的 队列 ， 
在 全 局 变量 sleep 中 存储 队列 ID。 第 二 ， 它 开启 一 个 每 秒 递 增 的 计时 器 ， 并 将 其 初始 化 为 0。 第 三 ， 
该 代码 将 时 钟 中 断 处 理 程序 的 地 址 存储 在 名 为 interruptVector 的 数组 中 ， 人 允许 中 断 分 配器 将 计时 器 中 断 
与 clkhandler 相关 联 。 第 四 ，clkinit 调用 clkupdate 更 新 间隔 计时 器 。 在 文件 clkinit. e 中 有 该 初始 化 程序 
代码 。 


/* elkinit.c */ 


#include «xinu.h» 
#include <interrupt .h> 
#include <clock.h> 


uint32 clkticks = 0; /* ticks per second x 
uint32 clktime = 0; /* current time in seconds . */ 
qidi6 sleepq; /* queue of sleeping processes ai 
uint32 preempt; /* preemption counter #4 
/* ai 


void clkinit (void) 


Sleepq = newqueue(); /* allocate a queue to hold the delta #4 
/* list of sleeping processes xf 
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elkticks = 0; | /* start counting one second Li 
/* Add clock interrupt handler to interrupt vector array */ 
interruptVector[IRQ TIMER] = &clkhandler; 

/* Enable clock interrupts */ 


enable irq(IRQ TIMER); 


/* Start interval timer */ 


clkupdate (CLKCYCS, PER TICK); 
} 


13.15 ”间隔 计时 器 管理 

在 E2100L 中 ， 只 有 通过 协同 处 理 器 (co-processor) 才能 访问 或 控制 间隔 定时 器 。 因 此 ， 控 制定 
时 器 的 代码 是 用 汇编 语言 写 的 。 

前 面 提 到 过 ， 计 时 器 硬件 使 用 处 理 器 时 钟 ， 每 毫秒 调度 一 次 中 断 。 为 了 更 好 地 理解 计时 器 管理 程 
序 ， 有 必要 指出 硬件 使 用 递增 计数 的 方法 。 定 时 器 一 直 处 于 计时 状态 直到 超过 操作 系统 所 设置 的 国 值 
N， 此 时 计时 器 发 生 中 断 。 

理论 上 ， 模 拟 一 个 毫秒 级 的 实时 时 钟 是 很 简单 的 : 当 发 生 中 断 时 ， 浆 值 只 需要 增加 N，N 是 一 个 
常数 ， 它 的 值 等 于 1 澡 秒 内 计时 器 累加 的 时 钟 周期 数 。 原 因 就 在 于 硬件 实现 的 计数 器 是 一 直 计 数 的 。 
在 最 后 一 次 计时 器 中 断 之 前 将 阀 值 设置 为 N 可 以 使 下 一 次 中 断 被 严格 地 调度 为 1 毫秒 。 

然而 ， 实 际 上 ， 总 是 给 前 面 的 闽 值 增加 N 个 单位 的 简单 方法 可 能 无 法 工作 。 原 因 在 于 当 计 时 器 到 
期 时 中 断 可 能 被 禁止 了 〈 比 如 ， 因 为 处 理 器 正在 处 理 其 他 设备 ) 。 在 当前 中 断 结 束 后 ， 在 分 配器 调用 
时 钟 中 断 处 理 程 序 及 处 理 程 序 更 新 计时 器 之 前 ， 又 经 过 了 少量 的 额外 时 间 。 因 此 ， 在 计时 需 到 期 时 与 
中 断 处 理 程序 复位 间隔 计时 器 之 间 将 有 少量 的 时 间 。 如 果 该 时 间 为 1 毫秒 ， 则 计时 需 的 值 等 于 N 与 前 
一 个 国 值 的 和 ， 在 达到 阔 值 之 前 计数 器 需要 回 滚 。 为 了 处 理 该 情况 ， 计 时 器 管理 程序 就 把 前 一 个 姜 值 
增加 N 并 将 该 值 与 时 间 计 数值 进行 比较 。 如 果 计 算出 阔 值 已 经 过 了 ， 那 么 代码 将 浆 值 复位 到 当前 计数 
值 与 N 的 和 。 文 件 clkupdate. S 中 含有 该 段 代码 。 


/* clkupdate.S - clkupdate, clkcount */ 





#include <mips.h> 


. text 

.align 4 

.globl clkupdate 

.globl clkcount 
firenze SASA SS SII ne RZ c eee eae SCIES 


/* Note: there are two cases 

* Normal case: COMPARE is increased by N cycles and stored as the 

* new threshold (N cycles beyond previous threshold) 

* Abnormal case: the timer has already accumulated more than N cycles 
* beyond the previous threshold. Start over by making 

* the threshold equal to the current count + N 
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234 
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clkupdate: 
mfc0 v0, CPO_COMPARE /* v0 = COMPARE ia 
mfc0 vl, CPO_COUNT /* vl = COUNT +y 
addu v0, v0, a0 /* v0 = COMPARE + cycles ial 4 
bleu v0, vl, compare up /* v0 <= COUNT, then goto compare up*/ 
mtcO v0, CPO0 COMPARE /* Update COMPARE wy 
JE ra 

/* Abnormal case: timer is beyond the next interrupt count; reset tai 


compare_up: 


addu a0, vl, a0 /* a0 = COUNT + cycles wy 
mtc0 a0, CPO_COMPARE /* COMPARE = a0 + 
jr ra 


mfc0 v0, CPO_COUNT 
jr ra 


13.16 MA 


PeR I A EDGE TE BOR LIE VA EE A FIERA, I, RO Pn a HP 
常 发 生 且 具有 高 的 优先 级 ， 所 以 CPU 处 理 时 钟 中 断 的 总 时 间 是 很 高 的 且 在 处 理 时 屏蔽 了 其 他 中 断 。 因 
此 ， 必 须 对 中 断 处 理 程序 的 代码 进行 优化 以 缩短 它 的 执行 时 间 。 另 一 方面 ， 当 操作 系统 允许 进程 响应 
定时 事件 时 ， 意味 着 它 可 以 调度 在 同一 时 间 同 时 发 生 的 很 多 事件 ， 也 就 意味 着 对 于 一 个 给 定 的 中 断 ， 
它 的 执行 时 间 可 以 是 任意 长 的 。 但 对 于 处 理 器 速度 相对 较 慢 的 散 入 式 系统 以 及 其 他 要 求实 时 服务 的 设 
备 而 言 ， 该 矛盾 就 显得 尤为 突出 。 

大 多 数 操作 系统 允许 调度 任意 事件 ， 并 对 多 个 事件 发 生 冲 突 时 采用 延迟 处 理 方法 。 当 手机 启动 一 
个 程序 时 ， 这 种 方法 就 可 能 造成 其 界面 不 能 实时 显示 ， 或 者 当 运行 多 个 程序 时 短信 可 能 要 花 很 长 时 间 
才能 发 送出 去 。 核 心 问题 是 : 操作 系统 如 何在 硬件 资源 有 限 的 条 件 下 提供 最 好 的 精确 时 钟 服务 ， 以 及 
当 请 求 无 法 响应 时 通知 用 户 ? 事件 要 不 要 分 配 优先 级 ”如 果 要 的 话 ， 事 件 优先 级 与 调度 优先 级 如 何 进 
行 交互 。 这 些 问 题 到 目前 还 没有 一 个 很 好 的 解决 方案 。 





13.17 Be 

实时 时 钟 以 固定 的 间隔 向 CPU 发 出 中 断 请 求 。 示 书 的 设计 使 用 计时 器 来 模拟 时 钟 中 断 。 中 断 处 理 
程序 负责 处 理 中 断 和 对 下 一 个 中 断 复位 计时 器 。 

操作 系统 使 用 时 钟 来 处 理 抢占 和 进程 延迟 。 当 进程 使 用 了 QUANTUM 个 时 钟 滴答 时 间 的 处 理 器 后 ， 
每 次 系统 切换 上 下 文 时 被 调度 的 抢占 事件 就 会 强制 调用 调度 器 。 抢 占 能 够 确保 任何 进程 均 不 能 永久 占 
有 CPU， 并 且 能 够 通过 保证 同等 优先 级 进程 间 的 轮转 服务 来 实现 调度 机 制 。 

当 进 程 请 求 计时 延迟 时 ， 系 统 就 会 调度 一 个 事件 ， 该 事件 使 得 一 个 正在 运行 的 进程 将 自己 放 入 进 
程 的 增 量 睡眠 链表 中 。 中 断 程序 通过 将 进程 移 人 就 绪 链 表 并 重新 调度 来 唤醒 一 个 计时 器 到 期 的 睡眠 进 
程 。 增 量 链表 为 管理 睡眠 进程 提供 了 一 个 非常 有 效 的 方法 。 


练习 


13. 1 “修改 代码 使 时 钟 中 断 频 率 提高 10 倍 ， 并 让 时 钟 中 断 处 理 程序 在 处 理 时 忽略 前 9 个 中 断 。 这 个 新 添 的 
中 断 需 要 多 少 额外 的 代价 ? 
13. 2 设计 一 个 实验 用 以 检测 系统 是 否 丢失 时 钟 中 断 ? 如 果 是 ， 丢 失 频 率 是 多 少 。 当 中 断 发 生 时 ， 从 计时 
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器 中 读 取 累计 的 值 并 与 “对 照 ” 值 进行 比较 ， 看 看 与 期 望 的 值 相 比 有 多 少 的 额外 周期 产生 。 
由 时 钟 中 断 唤醒 的 两 个 睡眠 进程 ， 其 中 一 个 拥有 比 当前 运行 进程 更 高 的 优先 级 ， 跟 踪 这 两 个 进程 的 
情况 。 

245 QUANTUM 设置 为 1 时 ， 将 会 导致 哪 一 部 分 失效 。 提 示 : 考虑 以 下 情况 : 当 运行 中 断 程序 时 ， 此 
时 切换 到 一 个 由 resched 挂 起 的 进程 的 情况 。 

sleepms(3) 函数 能 否 保证 至 少 3 毫秒 的 延迟 ”还 是 整 3 毫秒 ? 还 是 至 多 3 毫秒 ? 

仔细 阅读 kill 函数 代码 ， 查 找 由 kill 函数 将 一 个 进程 从 睡眠 队列 中 移 除 时 导致 的 问题 。 重 写 Kil 函数 
代码 修复 该 问题 。 

wakeup 调用 wait 时 会 出 现 什么 问题 ? 

要 准确 记录 大 量 进 程 占有 处 理 器 的 时 间 ， 操 作 系统 就 要 处 理 以 下 的 问题 : 当 一 个 中 断 产 生 时 ， 即 使 
这 个 中 断 与 当前 进程 看 起 来 不 相关 ， 最 普遍 的 方法 仍 是 让 当前 进程 处 理 中 断 事 件 。 对 操作 系统 如 何 
衡量 执行 中 断 例 程 的 代价 进行 分 析 ， 例 如 wakeup 对 受 影响 进程 的 执行 代价 分 析 。 

如 果 将 本 章 中 的 代码 移植 到 一 个 同型 号 但 有 更 高 时 钟 频率 的 机 器 上 ， 将 出 现 什么 现象 ”为 什么 ? 
设计 一 个 实验 验证 抢占 事件 是 否 会 导致 系统 重新 调度 。 注 意 : 一 个 通过 调用 resched 函数 用 于 测试 
变量 或 者 检测 O 性 能 的 单一 进程 会 干扰 实验 。 

假定 一 个 系统 有 3 个 进程 : 一 个 处 于 睡眠 状态 的 优先 级 比较 低 的 进程 L 和 两 个 具备 执行 条 件 的 且 
优先 级 较 高 的 进程 H, 与 H,。 再 假定 当 切 换 到 进程 H, 时 立刻 产生 一 个 时 钟 中 断 ， 此 时 中 断 处 理 程 
序 调用 resched 函数 且 进 程 工 处 于 准备 状态 。 虽 然 进程 工 不 会 运行 ， 但 resched 也 会 将 进程 H, 切换 
到 进程 H, 同时 不 会 将 quantum 值 赋 给 H,。 给 出 一 个 修改 resched 的 方案 ， 使 得 它 能 够 保证 一 个 进 
程 不 失去 对 处 理 器 的 控制 权 ， 除 非 优先 级 高 的 进程 处 于 准备 状态 或 者 它 的 时 间 片 到 期 了 。 
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我 们 总 是 被 自己 的 意念 所 束缚 ， 以 至 于 一 段 时 间 之 后 ， 我 们 会 喜欢 被 他 人 掌控 的 不 确定 性 。 
Tom Stoppard 








14.1 引言 

前 几 章 解释 了 并 发 进程 和 内 存 管理 机 制 。 第 12 章 对 中 断 的 重要 概念 进行 了 讨论 ， 描 述 了 中 断 处 理 
流程 、 给 出 了 中 断代 码 架 构 并 且 解释 了 中 断 处 理 与 并 发 进程 之 间 的 关系 。 第 13 章 对 第 12 童 进行 了 扩 
充 ， 描 述 了 如 何 使 用 实时 时 钟 中 断 来 实现 抢占 和 进程 延迟 。 

本 章 将 对 操作 系统 如 何 实现 O 进行 更 广泛 的 概览 ， 内 容 包括 建立 VO 抽象 的 理论 基础 和 适用 于 
通用 目的 O 设备 的 架构 。 本 章 还 描述 进程 如 何在 不 必 理 解 底层 人 硬件 的 基础 上 与 设备 之 间 进 行 数据 收 
发 。 本 章 还 定义 一 个 通用 模型 ， 并 描述 其 如 何 合并 设备 无 关 的 YO 函数 。 最 后 ， 本 章 对 一 个 高 效 的 信 
0 子 系统 进行 了 测试 。 


14.2 1/O 和 设备 驱动 的 概念 结构 


操作 系统 之 所 以 要 控制 并 管理 输入 和 输出 设备 ， 其 中 有 3 个 原因 。 第 一 ， 由 于 大 部 分 设备 便 件 使 
用 低层 接口 ， 所 以 软件 接口 较为 复杂 。 第 二 ， 由 于 设备 是 共享 资源 ， 所 以 操作 系统 提供 的 设备 访问 方 
式 应 基于 公平 和 安全 考虑 。 第 三 ， 操 作 系统 定义 了 高 层 接 口 ， 当 接口 与 设备 交互 时 ， 它 隐藏 了 其 中 的 
细节 ， 从 而 让 程序 员 能 够 使 用 一 组 连贯 且 统 一 的 操作 来 进行 处 理 。 
EERE, VO 子 系统 能 够 分 为 3 个 部 分 : 抽象 接口 ， 它 包括 处 理 时 执行 /0 的 高 层 VO 函数 ; 一 
组 物理 设备 ; 和 连接 前 两 者 的 设备 驱动 软件 。 图 14-1 描述 了 三 者 之 间 的 结构 关系 。 
用 户 进 程 





设备 驱动 器 i 








图 14-1 VO 子 系统 概念 结构 ， 其 中 的 设备 驱动 软件 介 于 进程 和 底层 设备 之 问 


从 图 14-1 中 可 以 看 出 ， 设 备 驱 动 器 软件 在 高 层 并 发 进程 和 低层 硬件 之 间 建 立 了 桥梁 。 每 个 驱动 
在 概念 上 分 为 两 部 分 : 上 半 部 (upper half) 和 下 半 部 (lower half) 。 当 进程 请 求 VO 时 ， 调 用 上 半 部 
分 的 函数 。 这 些 函数 通过 进程 间 数 据 传送 实现 诸如 读 和 写 等 操作 。 当 设备 中 断 时 ， 中 断 分 配器 调用 
下 半 部 分 的 处 理 程序 函数 。 这 些 处 理 程序 不 仅 处 理 中 断 ， 还 与 设备 相互 传送 数据 ， 并 有 可 能 触发 额外 
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的 1/0 操作 。 


14.3 ”接口 抽象 和 驱动 抽象 

操作 系统 设计 者 的 最 终 目标 是 创建 方便 的 编程 抽象 和 找到 高 效 的 实现 方法 。 关 于 IO， 有 两 个 编程 抽象 : 

。 接口 抽象 。 

。 驱动 抽象 。 

接口 抽象 〈interface abstraction) 的 问题 是 : 操作 系统 应 该 给 进程 提供 什么 样 的 VO 接口 ? 有 多 种 
可 能 的 选择 方案 ， 这 些 选择 策略 代表 了 在 灵活 性 、 简 单 性 、 高 效 性 和 通用 性 之 间 的 权衡 折 中 。 为 了 理 
解 这 个 问题 涉及 的 范围 ， 参 见 图 14-2， 图 中 列 出 了 一 组 示例 设备 和 适合 于 该 设备 的 操作 类 型 。 





























设备 WO 范例 | 
硬盘 驱动 器 移 到 给 定位 置 并 传输 一 个 数据 
键盘 接收 单个 输入 的 字符 
打印 机 传输 整个 将 要 输出 的 文本 
TORIS 传输 编码 音频 的 连续 流 | 
TRMA 发 送 或 接收 单个 网 络 数据 包 | 





图 14-2 示例 设备 和 每 个 设备 使 用 的 VO 范例 


早期 的 操作 系统 为 每 个 单一 硬件 设备 提供 了 一 组 WO 操作。 不 幸 的 是 ， 将 设备 特定 的 信息 存放 在 
软件 里 意味 着 当 IO 设备 被 另 一 个 供应 商 提供 的 同等 设备 取代 时 ， 就 必须 相应 地 修改 软件 。 一 个 更 加 
通用 的 方法 是 为 每 一 类 设备 定义 一 组 操作 ， 并 要 求 操作 系统 在 给 定 设备 上 处 理 合适 的 低层 操作 。 例 如 ， 
操作 系统 提供 了 抽象 函数 send_network_packet 和 receive_network_packet， 这 两 个 函数 能 够 在 任何 类 型 的 
网 络 上 传输 网 络 数 据 包 。 第 三 种 方法 起 源 于 Multics 并 由 UNIX 推广 : 选择 一 组 数量 小 并 能 足够 处 理 所 
有 LO 的 抽象 VO 操作 。 

了 驱动 抽象 (driver abstraction) ”我 们 可 将 第 三 类 抽象 看 做 是 VO 语义 。 最 著名 的 语义 设计 问题 之 
一 是 同步 : 当 进 程 正在 等 待 WO 操作 完成 时 是 否 会 阻塞 ?同步 接口 ， 类 似 于 前 面 描述 的 那个 接口 ， 提 
供 了 阻塞 操作 。 例 如 ， 为 了 在 同步 系统 中 从 键盘 请 求 数据 ， 进 程 调 用 上 半 部 分 的 函数 ， 这 些 函 数 能 够 
阻塞 进程 直到 用 户 输入 一 个 键 。 一 旦 用 户 按键 ， 设 备 就 产生 中 断 ， 同 时 中 断 分 配器 调用 下 半 部 分 的 函 
数 来 处 理 中 断 。 中 断 处 理 器 对 处 于 等 待 状态 的 进程 解 开 阻塞 ， 并 对 其 重新 调度 使 其 运行 。 相 反 ， 异 步 
VO 接口 允许 进程 在 产生 一 个 VO 操作 后 继续 执行 。 当 VO 完成 后 ， 驱 动 必 须 通 知 请 求 VO 的 进程 
〈 例 如 ， 可 以 调用 与 那个 进程 相关 的 事件 处 理 程序 函数 ) 。 

当 使 用 同步 IO 接口 时 ， 进 程 被 阻塞 直到 操作 完成 。 当 使 用 异步 IO 接口 时 ， 进 程 继续 
执行 操作 并 在 操作 完成 时 收 到 通知 。 

每 一 种 方法 都 有 优点 。 当 程序 员 需 要 对 重合 的 IO 和 计算 进行 控制 时 ， 异 步 接口 很 有 用 。 同 步 的 
方法 在 编程 的 简便 性 上 有 优势 。 

另 一 个 设计 问题 是 关于 数据 的 格式 和 传输 的 尺寸 。 这 里 涉及 两 个 问题 。 首 先 ， 数 据 以 块 还 是 字 节 
进行 传输 ? 其 次 ， 一 次 单独 的 操作 能 传输 多 少数 据 ?” 据 观察 ， 有 些 设备 以 单数 据 字 节 传 输 ， 有 些 设 备 
以 不 同 大 小 的 数据 块 传输 (比如 网 络 数据 包 或 文本 行 ) ， 另 一 些 设备 以 固定 大 小 的 数据 块 进 行 传输 。 
由 于 通用 操作 系统 必须 处 理 各 种 VO 设备 ， 所 以 VO 接口 可 能 同时 需要 单字 节 传 输 以 及 多 字 节 传输 。 

最 后 一 个 设计 问题 是 驱动 提供 的 参数 和 它 阐释 个 别 操作 的 方式 。 例 如 ， 进 程 需要 在 磁盘 上 指定 位 
置 并 重复 请 求 下 一 个 磁盘 块 吗 ? 或 者 进程 需要 在 每 次 请 求 中 指定 一 个 块 编号 吗 ? Xinu 示例 设备 驱动 程 
序 描述 了 如 何 使 用 这 些 参 数 。 

关键 的 思想 是 : 

在 现代 操作 系统 中 ，1/O 接口 和 设备 驱动 程序 用 来 隐藏 设备 的 细节 并 为 程序 员 提 供 便捷 

的 、 高 层 抽 象 。 
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14.4 VO 接口 的 一 个 示例 
我 们 的 示例 系统 包含 了 一 个 有 9 个 抽象 VO 操作 的 VO 子 系统 ， 这 些 VO 操作 适用 于 所 有 的 输入 
和 输出 ， 这 些 操作 是 从 UNIX 操作 系统 中 的 VO 操作 派生 出 来 的 。 图 14-3 列 出 了 这 些 操作 及 其 用 途 。 
















































操作 用 途 
close 终止 使 用 某 个 设备 
control 执行 操作 而 不 是 传输 数据 
getc 输入 单字 节 数 据 
init 在 系统 启动 时 初始 化 设备 
open 使 设备 进入 使 用 前 准备 状态 
putc 输出 单字 节 数 据 
read 输入 多 字 节 数据 
seek 移 到 指定 的 数据 位 置 (通常 是 磁盘 ) 
write 输出 多 字 节 数据 





图 14-3 Xinu 使 用 的 一 组 抽象 LO 接口 操作 


14.5 打开 - 读 - 写 -关闭 范式 

类 似 于 许多 操作 系统 中 的 编程 接口 ，Xinu 的 示例 VO 接口 也 遵循 打开 - 读 - 写 -关闭 (open-read- 
write-close) 范式 。 也 就 是 说 ， 在 执行 VO 前 ， 进 程 必须 打开 (open) 一 个 特定 的 设备 。 一 旦 设备 已 经 
打开 ,设备 就 允许 进程 调用 读 (read) 来 获取 输入 或 者 调用 写 (write) 来 发 送 输出 。 最 后 ， 一 旦 进程 
结束 使 用 该 设备 ， 进 程 就 调用 关闭 (close) 来 终止 设备 的 使 用 。 

打开 一 读 一 写 一 关闭 范式 要 求 进程 在 使 用 设备 前 打开 (open) 设备 并 在 使 用 完成 后 关闭 

(close) 设备 。 

open 和 close 允许 操作 系统 管理 需要 独占 使 用 的 设备 ， 在 数据 传输 过 程 中 准备 设备 ， 在 传输 结束 后 
终止 该 设备 的 使 用 。 例如， 如 果 一 个 设备 在 没有 使 用 的 情况 下 需要 切断 电源 或 者 进入 待机 状态 ， 那 么 
关闭 该 设备 是 非常 有 用 的 。read 和 write 两 个 操作 负责 处 理 数据 传输 ， 与 主 存 中 的 缓存 区 之 间 进 行 数据 
字 节 的 收发 。getc 和 pute 传输 单字 节 (通常 是 一 字符 ) 。control 允许 程序 控制 某 个 设备 或 设备 驱动 器 
(比如 ， 检 查 打印 机 的 作业 或 者 在 无 线 频率 中 选择 通道 )。seek 是 control 的 特例 ， 它 能 够 随机 访问 存储 
设备 (如 磁盘 ) 的 特定 位 置 。 最 后 ，init 在 系统 启动 时 初始 化 设备 及 其 驱动 。 

考虑 操作 如 何 应 用 到 控制 台 窗口 上 : gete 从 键盘 读 入 下 一 个 键入 的 字符 ，putc 在 控制 台 窗口 上 显 
示 字 符 ，write 能 够 在 一 次 调用 中 显示 多 个 字符 ，read 能 够 读 人 特定 数目 的 字符 (或 者 所 有 输入 的 字 
符 ， 取 决 于 它 的 参数 ) 。 最 后 ，control 允许 程序 改变 驱动 器 的 参数 来 控制 诸如 当 密码 输入 时 系统 是 否 终 
止 输出 字符 等 这 类 情况 。 


14.6 HENO 操作 和 设备 名 

像 read 这 样 的 抽象 操作 怎样 在 底层 硬件 设备 上 起 作用 呢 ? 答案 在 于 操作 绑 定 。 当 进程 调用 一 个 高 
层 操作 时 ， 操 作 系 统 必须 将 该 调用 映射 到 设备 驱动 器 函数 上 。 例 如 ， 如 果 进 程 在 控制 台 设 备 上 调用 了 
read， 那 么 操作 系统 就 将 这 个 调用 传递 给 实现 read 的 控制 台 设 备 驱动 器 。 为 了 这 样 做 ,操作 系统 对 程 
序 进程 隐藏 了 硬件 和 设备 驱动 的 细节 并 提供 设备 的 一 个 抽象 版 本 。 通 过 对 键盘 和 显示 器 上 的 窗口 使 用 
一 个 单独 的 抽象 设备 ， 操 作 系 统 可 以 对 程序 隐瞒 底层 硬件 包含 两 个 不 同 设备 的 事实 。 此 外 ， 操 作 系 统 
能 够 通过 为 不 同 供应 商 提供 的 硬件 提供 相同 的 高 层 抽象 来 隐藏 设备 细节 。 

操作 系统 创建 一 个 虚拟 1/0 环境 一 一 进程 只 能 够 通过 接口 和 设备 驱动 器 提供 的 抽象 察觉 

到 外 围 设备 的 存在 。 

除了 将 抽象 的 VO 操作 映射 到 驱动 程序 外 ， 操 作 系 统 还 必须 将 设备 名 映射 到 具体 设备 上 。 这 种 映 
射 有 许多 不 同 的 方法 。 早 期 的 系统 要 求 程序 员 在 源 代 码 中 嵌入 设备 名 。 后 来 的 系统 在 程序 中 用 小 的 整 
数 来 识别 设备 ， 并 允许 命令 解释 器 在 程序 启动 时 将 每 个 整数 链接 到 具体 的 设备 。 许 多 现代 系统 将 设备 
陪 入 在 文件 名 字 空 间 的 层次 结构 中 ， 人 允许 程序 对 设备 使 用 符号 名 。 
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早期 和 后 期 的 绑 定 方法 都 有 它们 的 优点 。 一 般 来 说 ， 在 后 期 绑 定 模式 下 ， 操 作 系统 要 等 到 运行 时 才 
将 抽象 设备 名 绑 定 到 真实 的 物理 设备 ， 并 将 一 组 抽象 操作 绑 定 到 设备 驱动 函数 上 ， 这 种 方式 非常 灵活 。 
可 是 ， 这 些 后 期 绑 定 的 系统 会 产生 较 多 的 计算 开销 ， 使 它们 在 最 小 型 的 嵌入 式 系统 中 不 可 用 。 另 外 一 种 极 
端 则 是 早期 绑 定 : 在 编写 应 用 程序 时 就 要 指定 设备 信息 。 因 此 ，LO 设计 的 本 质 就 是 在 达到 所 要 求 性 能 的 同 
时 ， 使 得 绑 定 机 制 灵活 性 最 大 化 。 

我 们 的 示例 系统 使 用 了 适用 于 旧型 的 小 型 谋 人 式 系统 的 方法 : 在 操作 系统 编译 前 就 指定 设备 信息 。 
对 于 每 个 设备 ， 操 作 系统 准确 地 知道 每 个 抽象 VO 操作 对 应 于 哪个 驱动 器 函数 。 另 外 操作 系统 也 知道 
每 个 抽象 设备 对 应 于 哪个 底层 硬件 设备 。 因 此 ， 无 论 何 时 安装 一 个 新 设备 或 印 载 已 有 的 设备 ， 操 作 系 
统 都 必须 重新 进行 编译 。 由 于 不 包含 具体 的 设备 信息 ， 所 以 程序 代码 能 够 很 方便 地 从 一 个 系统 移植 到 
另外 一 个 系统 。 例 如 ， 一 个 仅仅 在 CONSOLE 串口 上 处 理 VO 操作 的 应 用 程序 ， 也 能 够 在 任何 一 个 提供 
CONSOLE 设备 和 相关 驱动 器 的 Xinu 系统 上 和 运行， 而 且 独 立 于 物理 设备 硬件 和 中 断 结 构 。 


14.7 Xinu 中 的 设备 名 

在 Xinu 中 ， 系 统 的 设计 者 必须 在 系统 配置 时 指定 一 组 抽象 设备 。 配 置 程序 为 每 个 设备 名 指 派 一 个 
唯一 的 整数 值 ， 这 个 整数 值 就 是 设备 描述 符 (device descriptor) 。 例 如 ， 如 果 设 计 者 命名 一 个 设备 为 
CONSOLE， 配 置 程序 就 分 配 描述 符 0。 配 置 程序 则 生成 一 个 头 文件 ， 该 头 文件 包含 每 个 名 字 的 #define 
语句 。 因 此 ， 一 旦 包含 这 个 头 文件 ， 程 序 员 就 能 够 在 代码 中 引用 CONSOLE。 例 如 ， 如 果 CONSOLE 分 
配 了 描述 符 0， 那 么 调用 : 

read (CONSOLE, buf,100); 
就 等 同 于 ; 

read(0,buf,100); 

Xinu 为 每 个 设备 名 使 用 了 静态 绑 定 。 在 操作 系统 编译 前 ， 在 配置 阶段 ， 每 个 设备 名 与 一 
个 整数 描述 符 绑 定 。 


14.8 设备 转换 表 概 念 

每 当 进 程 调用 高 层 IZO 操作 (比如 read 和 wirte) 时 ， 操 作 系 统 必 须 将 这 次 调用 转发 给 适当 的 驱动 器 
函数 。Xinu 使 用 称 为 设备 转换 表 (device switch table) 的 数组 来 提高 实现 效率 。 分 配给 设备 的 整数 描述 
符 是 设备 转换 表 的 索引 。 为 了 便于 理解 ， 可 以 想象 设备 转换 表 是 一 个 2 维 数组 。 从 概念 上 来 看 ， 数 组 的 
每 行 对 应 于 一 个 设备 ， 每 列 对 应 于 一 次 抽象 操作 。 数 组 中 的 项 指定 了 处 理 操作 要 用 到 的 驱动 函数 。 

例如 ,假设 一 个 系统 包含 了 如 下 3 个 设备 : 

e CONSOLE; 发 送 和 接收 字符 的 串 行 设备 。 

e ETHER: 以 太 网 接口 设备 ， 

e DISK; frs. 

图 14-4 描述 了 设备 转换 表 的 一 部 分 。 表 中 每 一 行 表示 一 个 设备 ， 每 一 列表 示 一 次 VO 操作 。 表 中 
的 项 表示 处 理 操作 的 驱动 器 函数 ， 该 操作 涉及 的 设备 由 行 给 出 ， 操 作 由 列 给 出 。 


open close read write gete 














CONSOLE | conopen conclose | conread conwrite | congetc | 





ETHER | ethopen ethclose | ethread ethwrite ethgetc 








DISK | dskopen | dskclose | dskread | dskwrite | dskkgetc 




















图 14-4 设备 转换 表 的 概念 结构 ， 每 一 行 表示 一 个 设备 ， 每 一 列表 示 一 次 抽象 操作 
例如 ,假设 进程 在 CONSOLE 设备 上 调用 write 操作 。 操 作 系 统 进 入 表 中 CONSOLE 设备 对 应 的 行 ， 
找到 对 应 于 write 操作 的 列 ， 然 后 调用 该 位 置 的 函数 : conwrite。 
本 质 上 ， 设 备 转换 表 的 每 行 定义 了 LO 操作 如 何 应 用 到 单个 设备 上 ， 这 就 意味 着 IO 语义 因 设 备 
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的 不 同 而 不 同 。 例 如 ， 当 设备 是 DISK 时 ， 一 次 read 操作 传输 512 字 节 的 数据 块 ， 但 是 当 设备 是 CON- 
SOLE it, read 传输 用 户 输入 的 一 行 字符 。 

设备 转换 表 的 最 重要 方面 是 它 在 多 个 物理 设备 间 定 义 了 统一 的 抽象 。 例 如 ， 假 设 一 台 计 算 机 有 两 
块 磁盘 ， 一 个 扇 区 大 小 为 1KB ， 另 一 个 鹿 区 大 小 为 4KB ， 两 块 磁盘 的 驱动 器 能 够 为 应 用 程序 提供 相同 
的 接口 ， 同 时 隐藏 了 底层 硬件 的 不 同 之 处 。 这 就 意味 着 ， 驱 动 器 总 是 能 够 传输 4KB 的 数据 给 用 户 ， 并 
且 将 每 次 传输 操作 转换 成 4 次 1KB 的 磁盘 传输 。 


14.9 设备 和 共享 驱动 的 多 个 副本 

假设 一 台 计 算 机 有 两 个 使 用 相同 硬件 的 设备 ， 那 么 操作 系统 需要 两 个 不 同 的 设备 驱动 副本 吗 ? 
不 需要 。 每 个 驱动 程序 只 保持 一 个 副本 ， 而 系统 使 用 参数 来 区 分 两 个 设备 。 除 了 图 14-4 中 的 函数 
外 ， 参 数 也 可 以 保存 在 设备 转换 表 的 列 中 。 例 如 ， 如 果 系 统 有 2 个 以 太 网 接口 ， 每 个 以 太 网 接口 在 
设备 转换 表 中 都 有 一 行 ， 那 么 两 行 中 大 多 数 的 项 都 是 相同 的 。 然 而 ， 有 一 列 将 为 每 个 设备 指定 唯一 
的 控制 和 状态 寄存 器 (Control and Status Register, CSR) 地 址 。 当 系统 调用 驱动 函数 时 ， 它 将 传人 一 
个 参数 ， 该 参数 包含 了 指向 该 设备 的 设备 转换 表 中 的 行 的 指针 。 因 此 ， 了 驱动 函数 就 可 以 将 操作 应 用 
到 正确 的 设备 上 。 

操作 系统 为 每 一 类 设备 维护 一 个 驱动 副本 ， 同 时 操作 系统 提供 参数 让 驱动 程序 区 分 物理 

硬件 的 多 个 副本 ， 而 不 是 为 每 个 物理 设备 创建 一 个 设备 驱动 。 

在 示例 代码 中 ,设备 转换 表 的 名 字 为 devtab， 它 能 帮助 我 们 了 解 其 中 的 细节 。 结 构 体 dentry 定义 
了 表 中 每 项 的 格式 ， 它 的 声明 可 以 在 conf. h 文件 中 找到 。 


/* conf.h (GENERATED FILE; DO NOT EDIT) */ 
/* Device switch table declarations */ 


/* Device table entry */ 
struct dentry { 
int32 dvnum; 
int32 . dvminor; 
char *dvname; 
devcall (*dvinit) (struct dentry *); 
devcall (*dvopen) (struct dentry *, char *, char *); 
devcall (*dvclose) (struct dentry *); 
devcall (*dvread) (struct dentry *, void *, uint32); 
devcall (*dvwrite) (struct dentry *, void *, uint32); 
devcall (*dvseek) (struct dentry *, int32); 
devcall (*dvgetc) (struct dentry *); 
devcall (*dvputc) (struct dentry *, char); 
devcall (*dvcntl) (struct dentry *, int32, int32, int32); 
void *dvcsr; 
void (*dvintr) (void); 
byte dvirq; 


* 


Jiz 
extern struct dentry devtab[]; /* one entry per device */ 


/* Device name definitions */ 


#define CONSOLE 0 /* type tty */ 
#define NOTADEV 1 /* type null */ 
#define ETHERO 2 /* type eth */ 





O XfF conf h 还 包含 定义 了 整个 系统 中 的 常量 的 #define 语句 。 第 24 章 描述 了 Xinu 配置 并 且 解 释 了 这 些 常量 是 如 
何 出 现 的 。 
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#define RFILESYS 3 /* type rfs at A 
#define RFILEO 4 /* type rfl */ 
#define RFILEl 5 /* type rfl x 
#define RFILE2 6 /* type rfl kf 
#define RFILE3 7 /* type rfl *yr 
#define RFILE4 8 /* type rfl */ 
#define RFILE5 9 /* type rfl Rf 
#define RDISK 10 /* type rds "y 
#define LFILESYS X1 /* type lfs xy 
#define LFILEO 12 /* type 1f1 i d 
#define LFILEl 13 /* type lfl */ 
#define LFILE2 14 /* type 1fl Ef 
#define LFILE3 15 /* type 1f1 x 
#define LFILE4 16 /* type 1f1 * 
#define LFILE5 17 /* type 1f1 */ 
#define TESTDISK 18 /* type ram x/ 
#define NAMESPACE 19 /* type nam bai 


/* Control block sizes */ 


#define Nnull 
#define Ntty 
#define Neth 
#define Nrfs 
#define Nrfl 
#define Nrds 
#define Nram 
#define Nlfs 
#define N1fl 
#define Nnam 


PARP E ARE RE 


#define DEVMAXNAME 24 
#define NDEVS 20 


/* Configuration and Size Constants */ 


#define NPROC 100 /* number of user processes my 
#define NSEM 100 /* number of semaphores ay 
#define IRQ TIMER IRQ HW5 /* timer IRQ is wired to hardware 5 xy 
#define IRQ ATH MISC IRQ HW4 /* Misc. IRQ is wired to hardware 4 =f 
#define MAXADDR 0x02000000 /* 32 MB of RAM */ 
#define CLKFREQ 200000000 /* 200 MHz clock ba 
#define FLASH_BASE 0xBD000000 /* Flash ROM device i 
#define LF DISK DEV TESTDISK 
devtab 中 的 每 项 对 应 于 一 个 设备 。 表 中 的 项 为 设备 指定 了 构成 驱动 器 函数 的 地 址 、 设 备 CSR 地 址 


SULLAM n E dA E e o MS 
段 保存 了 对 应 高 层 操作 的 驱动 程序 地 址 。dvminor 字段 包含 了 设备 控制 块 数组 的 整数 索引 。 如 果 底 层 硬 
件 包 括 了 一 组 相同 的 硬件 设备 ， 那 么 次 设备 编号 就 是 必需 的 一 一 次 编号 意味 着 驱动 可 以 为 每 个 设备 建 
立 一 个 单独 的 控制 块 项 。dvesr 字段 包含 了 设备 的 硬件 CSR 地 址 。 控 制 块 数组 中 的 每 项 保存 与 特别 的 设 
RARE ATE 控制 块 的 内 容 取 决 于 设备 ， 但 可 能 包含 输入 或 输出 缓存 区 、 设 备 状 

Fe ( 例如， 无 线 网 络 设备 当前 是 否 与 男 一 个 无 线 设 备 通 信 )、 统 计 信息 (例如 ， 自 系统 启动 后 网 
络 设 备 接收 数据 的 总 量 ) o 
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14.10 SE I/O 操作 的 实现 

由 于 设备 转换 表 将 高 层 VO 操作 从 底层 细节 中 分 离 出 来 ， 所 以 它 允 许 高 层 函数 在 任何 设备 驱动 纺 
写 完 之 前 创建 。 这 种 策略 的 一 个 主要 优点 是 程序 员 可 以 不 需要 具体 的 硬件 设备 就 能 建立 VO 系统 。 

我 们 的 示例 系统 为 每 个 高 层 的 操作 设计 了 一 个 函数 。 该 系统 包含 了 open, close, read, write, 
gete, pute 等 函数 。 然 而 ， 这 些 高 层 read 函数 并 不 执行 VO 操作 。 相 反 ， 每 一 个 高 层 LO 函数 间接 地 
(indirectly) 执行 VO 操作 : 函数 使 用 设备 转换 表 找 到 并 调用 适当 的 低层 设备 驱动 程序 来 执行 请 求 的 
任务 。 

read 和 write 等 高 层 函数 为 具体 的 设备 间接 调用 低层 驱动 器 函数 ， 而 不 是 直接 执行 IO 
操作 。 
研究 代码 将 有 助 于 理解 概念 ， 下 面 为 read. c 文件 中 的 read 函数 : 


/* read.c - read */ 


#include <xinu.h> 


/[* tS aS mi ct AE ts a a i nuce 
* read - read one or more bytes from a device 
i a a mini eh i LILLE Sap Sc ae ae RSI el ee ee ee eS ee 
* 
syscall read( 
did32 descrp, /* descriptor for device np 
char *buffer, /* address of buffer * 
uint32 count /* length of buffer wad 
) 
{ 
intmask mask; /* saved interrupt mask ky 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller */ 


mask - disable(); 
if (isbaddev(descrp)) ( 
restore (mask); 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr-»dvread) (devptr, buffer, count); 
restore (mask); 
return retval; 
} 
PA read 的 参数 由 设备 描述 符 、 缓存 区 地 址 和 要 读 取 的 最 大 字 节 数组 成 。read 使 用 deserp 作为 设 
备 描述 符 ， 它 是 devtab 表 的 索引 ， 通 过 它 从 并 分 配 设备 转换 表 获 得 地 址 指针 devptr, retum 语句 调用 了 
底层 设备 驱动 函数 并 将 结果 返回 给 调用 read 的 函数 。 代 码 : l 
(* devptr - >dvread) (devptr,buffer, count) 
执行 间接 函数 调用 。 也 就 是 说 ， 通 过 传人 3 个 参数 : devptr (devtab 表 项 的 地 址 ) buffer (组 
存 区 地 址 ) 和 count (要 读 取 的 字符 数 ) 该 代码 调用 设备 转换 表 项 中 dvread 字段 给 出 的 驱动 器 
250] K% 


14.11 ”其 他 高 层 |/O 函数 


其 他 高 层 传输 和 控制 函数 与 read 函数 的 操作 方式 一 致 : 它们 利用 设备 转换 表 来 选择 并 调用 合适 的 
低层 驱动 函数 ， 并 将 结果 返回 给 调用 者 。 下 面 是 各 个 函数 的 实现 代码 。 
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/* control.c - control */ 


#include <xinu.h> 


/* i a a i,k Sk S aS R ii SSeS SS nn 
* control - control a device or a driver (e.g., set the driver mode) 
a ST Ss te E I IT I E A a Se A cl Set ee O I O e e as 
&/ 
syscall control( 
did32 descrp, /* descriptor for device t 
int32 func, /* specific control function */ 
int32 argl, /* specific argument for func mp 
int32 arg2 /* specific argument for func * 
) 
t 
intmask mask; /* saved interrupt mask * 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller xj 
mask = disable (); 
if (isbaddev(descrp)) { 
restore (mask) ; 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr-»dvcntl) (devptr, func, argl, arg2); 
restore (mask); 
return retval; 
} 


/* getc.c - getc */ 


#include «xinu.h» 


/* -——————— ÀuÁ— nl Dn — M À———————' coca Y Ire e 
* getc - obtain one byte from a device 
Rupee cieca irene ian: 
*j 
Syscall getc( 
did32 descrp /* descriptor for device ae 
) 
{ 
intmask mask; /* saved interrupt mask */ 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller */ 
mask - disable(); 
if (isbaddev(descrp)) ( 
restore (mask); 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]: 
retval = (*devptr->dvgetc) (devptr); 
restore (mask); 
return retval; 
} 


/* putc.c - putc */ 
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#include «xinu.h» 


/* J- SEIA eos oe ee eee ee a SS SS Se = 
* putc - send one character of data (byte) to a device 
d ee ee 
i À 
syscall putc( 
did32 descrp, /* descriptor for device */ 
char ch /* character to send */ 
) 
{ 
intmask mask; /* saved interrupt mask wy 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller ui 


mask - disable(); 
if (isbaddev(descrp)) ( 
restore (mask); 
return SYSERR; 
) 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr->dvputc) (devptr, ch); 
restore (mask); 
return retval; 


/* seek.c - seek */ 


#include «xinu.h» 


/* —————————————————————————— 
* seek - position a random access device 
Lr ————— "——————————— — — ———"n— A € "€ € TE LB NB 
*7 
syscall seek( 
did32 descrp, /* descriptor for device LW 
uint32 pos /* position */ 
) 
{ 
intmask mask; /* saved interrupt mask x7 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller */ 


mask - disable(); 
if (isbaddev(descrp)) ( 
restore (mask); 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr->dvseek) (devptr, pos); 
restore (mask); 
return retval; 
} 


/* write.c - write */ 


#include <xinu.h> 
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y 
syscall write( 
did32 descrp, /* descriptor for device */ 
char *buffer, /* address of buffer */ 
uint32 count /* length of buffer LÀ 
) 
t 
intmask mask; /* saved interrupt mask i 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller wf 
mask = disable(); 
if (isbaddev(descrp)) { 
restore (mask) ; 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr-»dvwrite) (devptr, buffer, count); 
restore (mask) ; 
return retval; 
} 


用 户 进程 可 以 使 用 上 述 函 数 来 访问 VO 设备 。 另 外 ， 系 统 还 提供 一 个 高 层 VO 函数 init， 这 个 函 
数 只 供 操作 系统 使 用 。 每 次 系统 启动 时 ， 操 作 系 统 就 调用 各 个 设备 的 init 函数 。 与 其 他 YO 函数 一 
FÉ, init 函数 也 使 用 设备 转换 表 来 调用 合适 的 低层 驱动 函数 。 每 个 驱动 内 部 的 初始 化 函数 能 够 初始 化 
硬件 设备 ， 如 果 有 必要 的 话 ， 也 能 够 初始 化 驱动 所 使 用 的 数据 结构 〈 如 缓冲 区 和 信号 量 ) 。 后 面 我 们 
将 看 到 一 些 驱动 初始 化 的 例子 。 目 前 ， 理 解 init 函数 与 其 他 VO 函数 具有 相同 的 实现 方式 就 足够 了 : 


/* init.c = init */ 


#include «xinu.h» 


[* WIRES a a we er a eu eS er en er ies gen er cu s iiit em ee ee ee 
* init - initialize a device and its driver 
eg ca dn ist lea 
*/ 
syscall init( 
did32 descrp /* descriptor for device *7 
) 
{ 
intmask mask; /* saved interrupt mask */ 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller =] 
mask = disable(); 
if (isbaddev(descrp)) { 
restore (mask); 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr-»dvinit) (devptr); 
restore (mask); 
return retval; 
} 


14.12 打开、 关闭 和 引用 计数 
open 和 close 函数 与 其 他 VO 函数 的 操作 方式 非常 相似 ， 也 使 用 设备 转换 表 来 调用 合适 的 驱动 函 


142 


第 14 章 设备 无 关 的 1/O 


数 。 之 所 以 使 用 open 和 close 函数 ， 原 因 在 于 可 以 用 它们 建立 设备 的 所 属 关 系 或 者 为 一 个 将 要 使 用 的 
设备 提供 准备 工作 。 例 如 ， 如 果 一 个 设备 需要 互 斥 访问 ， 那 么 open 函数 将 阻塞 后 续 用 户 直 到 设备 变 得 
空闲 为 止 。 另 外 ， 操 作 系 统 在 设备 处 于 不 使 用 状态 时 通过 使 设备 保持 空闲 来 节约 资源 。 虽 然 设 计 者 可 
以 通过 使 用 control 函数 来 启动 或 者 关闭 磁盘 ， 但 是 open 和 close 函数 显得 更 为 方便 。 因 此 ， 当 进程 调 
用 open 函数 时 ， 磁 盘 就 会 启用 ， 而 当 进程 调用 close 函数 时 ， 磁 盘 就 会 关闭 。 

虽然 一 个 小 型 嵌入 式 系统 可 能 会 选择 在 进程 调用 一 个 设备 的 close 函数 时 让 磁盘 处 于 休眠 状态 ， 但 
是 由 于 在 较 大 型 系统 中 多 个 进程 能 够 同时 使 用 一 台 设 备 ， 所 以 需要 一 套 更 为 复杂 的 机 制 。 大 部 分 设备 
驱动 器 都 引入 了 一 套 称 为 引用 计数 的 技术 ， 即 驱动 维护 一 个 整 型 变量 来 记录 占用 当前 设备 的 进程 数 。 
在 初始 化 过 程 中 ， 这 个 引用 计数 设置 为 0。 一 旦 进程 调用 open 函数 ， 驱 动 右 就 将 引用 计数 加 1; 当 进 
程 调用 close 函数 时 ， 驱 动 器 就 将 引用 计数 减 1。 当 这 个 计数 为 0 时 ， 驱 动 器 就 关闭 设备 。 

open 和 close 函数 的 实现 方法 和 其 他 上 层 VO 函数 的 实现 方法 相同 : 


/* open.c - open */ 


#include <xinu.h> 


/ Nc ECRIRE CAE ME i caraibici ERE E M MERE GG a RC ZE RA 
* open - open a device (some devices ignore name and mode parameters) 
Mus as e doe du am omi ep» nc a um vul i Vi Vc ER UE Oc pi im dh Rar LN GO are Jus qup am ud ds Ru eni den Coi E uS Dui QU. E oup Gu dup aum Rus MEUM RR RU i Me que d. 
wf 

syscall open( 

did32 descrp, /* descriptor for device ba 
char *name, /* name to use, if any uri 
char *mode /* mode for device, if any wy 
) 
{ 
intmask mask; /* saved interrupt mask wy 
struct dentry *devptr; /* entry in device switch table */ 
int32 retval; /* value to return to caller ef 
mask = disable(); 
if (isbaddev(descrp)) { 
restore (mask); 
return SYSERR; 
} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr->dvopen) (devptr, name, mode); 
restore (mask) ; 
return retval; 
} 


/* close.c - close */ 


#include <xinu.h> 


/* —€(—€^à(—————————————————————————————————————— 
* close - close a device 
I ————————————————— ————————————— cE IRRQÓÀ 
ey 
syscall close( 
did32 descrp /* descriptor for device xy 
) 
{ 
intmask mask; /* saved interrupt mask fi 
struct dentry  *devptr; /* entry in device switch table */ 


int32 retval; /* value to return to caller x 
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mask = disable(); 

if (isbaddev(descrp)) { 
restore (mask) ; 
return SYSERR; 


} 
devptr = (struct dentry *) &devtab[descrp]; 
retval = (*devptr->dvclose) (devptr); 


restore (mask); 
return retval; 


) 


14.13 devtab 中 的 空 条 目 和 错误 条 目 


VO 函数 的 操作 方式 带 来 一 个 有 趣 的 问题 。 一 方面 ， 上 层 函 数 ， 比 如 read 和 write， 不 检查 devtab 
中 的 条 目 是 否 有 效 而 直接 使 用 。 因 此 ， 对 于 每 个 设备 的 每 个 VO 操作 都 需要 提供 一 个 函数 。 男 一 方面 ， 
一 个 操作 可 能 并 不 对 所 有 的 设备 都 有 意义 。 例 如 ，seek 就 不 能 在 串 行 设备 上 使 用 ， 而 gete 对 于 以 数据 
包 为 单位 传输 的 网 络 设备 也 没有 意义 。 而 且 ， 设 计 者 可 以 选择 忽略 特定 设备 的 一 些 操作 〈 比 如， 选择 
让 CONSOLE 设备 一 直 处 于 打开 状态 ， 这 样 close 操作 就 不 能 启 到 作用 ) 。 

对 于 那些 没有 意义 的 操作 应 该 在 devtab 中 赋予 什么 值 呢 ? 可 以 使 用 如 下 两 种 程序 来 描述 那些 在 
devtab 中 没有 的 驱动 器 函数 的 条 目 : 
不 执行 任何 动作 返回 OK。 

e ioerr 一 一 不 执行 任何 动作 返回 SYSERR, 

按照 惯例 ， 那 些 值 为 ioerr 的 条 目 不 应 该 被 调用 ， 因 为 它们 意味 着 非法 操作 。 对 于 那些 没有 必要 但 
是 又 无 害 的 操作 ( 比如， 打开 终端 设备 ) ， 应 该 使 用 ionull 函数 。 这 两 个 函数 的 代码 实现 是 不 重要 的 : 


/* ionull.c - ionull */ 





* ionull 


#include <xinu.h> 


* ionull - do nothing (used for "don't care" entries in devtab) 


#4 
devcall ionull (void) 
( 
return OK; 


) 


/* ioerr.c - ioerr */ 


#include <xinu.h> 


*/ 
devcall ioerr (void) 
{ 
return SYSERR; 
} 


14.14 VO 系统 的 初始 化 

如 何 初始 化 设备 转换 表 ? 如 何 安装 驱动 器 函数 ”在 大 型 复杂 操作 系统 中 ， 设 备 驱动 是 动态 管理 的 。 
因此 ， 当 用 户 插入 一 个 新 设备 时 ， 操 作 系 统 不 需要 重新 启动 就 可 以 识别 这 个 设备 并 为 它 寻找 和 安装 一 
个 合适 的 驱动 。 
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一 个 小 型 蔡 入 式 系统 在 二 级 存储 器 内 没有 可 用 的 驱动 集合 ， 也 可 能 没有 足够 的 计算 资源 在 运行 时 
安装 驱动 。 因 此 ， 大 部 分 的 嵌 和 人 式 系统 使 用 静态 设备 配置 文件 ， 在 这 个 文件 中 ， 设 备 集合 和 设备 驱动 
集合 在 系统 编译 时 就 确定 了 。Xinu 使 用 的 就 是 静态 方法 ， 它 要 求 系统 的 设计 者 指定 设备 集合 和 构成 每 
一 个 驱动 的 底层 驱动 函数 的 集合 。 不 需要 程序 员 显 式 地 声明 整 张 设备 转换 表 。 然 而 ， 它 使 用 一 个 单独 
的 应 用 程序 来 读 取 配 置 文件 并 且 生 成 一 个 C 文件 ， 这 个 C 文件 包含 了 一 个 所 有 字段 都 有 初始 值 的 

[258]  devtab 的 声明 。 
小 型 谈 入 式 系 统 使 用 静态 设备 定义 ， 在 这 个 定义 中 ， 设 计 者 指定 设备 集合 和 每 一 个 设 

备 的 驱动 函数 集合 。 配 置 文件 程序 能 够 生成 代码 ， 这 段 代码 用 来 为 设备 转换 表 的 每 个 字段 

赋值 。 

conf. c 文件 包含 了 一 个 由 配置 文件 程序 生成 的 C 代码 的 例子 。 目 前 ， 它 已 经 足以 检测 devtab 中 的 
每 一 个 条 目 并 观察 每 个 字段 是 如 何 初 始 化 的 。 


/* conf.c (GENERATED FILE; DO NOT EDIT) */ 





#include <xinu.h> 


extern devcall ioerr(void); 
extern devcall ionull (void) ; 


/* Device independent I/O switch */ 


struct dentry devtab[NDEVS] = 
{ 
/** 
* Format of entries is: 
* dev-number, minor-number, dev-name, 
* init, open, close, 
* read, write, seek, 
* getc, putc, control, 
* dev-csr-address, intr-handler, irq 


/* CONSOLE is tty */ 
(0, 0, "CONSOLE", 
(void *)ttyInit, (void *)ionull, (void *)ionull, 
(void *)ttyRead, (void *)ttyWrite, (void *)ioerr, 
(void *)ttyGetc, (void *)ttyPutc, (void *)ttyControl, 
(void *)0xb8020000, (void *)ttyInterrupt, 11 ), 


/* NOTADEV is null */ 
(1, 0, "NOTADEV", 
(void *)ionull, (void *)ionull, (void *)ionull, 
(void *)ionull, (void *)ionull, (void *)ioerr, 
(void *)ionull, (void *)ionull, (void *)ioerr, 
(void *)0x0, (void *)ioerr, 0 }, 
/* ETHERO is eth */ 
(2, 0, "ETHERO", 
(void *)ethInit, (void *)ethOpen, (void *)ioerr, 
(void *)ethRead, (void *)ethwrite, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ethControl, 
(void *)0xb9000000, (void *)ethInterrupt, 4 }, 


/* RFILESYS is rfs */ 
{ 3, 0, *'RFILESVYS", 
(void *)rfsInit, (void *)rfsOpen, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 


JR 


/* 


/* 


/* 


/* 


/* 


/* 


/* 
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(void *)ioerr, (void *)ioerr, (void *)rfsControl, 
(void *)0x0, (void *)ionull, 0 }, 


RFILEO is rfl */ 
{ 4, 0, "RFILEO", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflwrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 }, 


RFILE1 is rfl */ 
(5, 1, "RFILE1", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflWrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 ), 


RFILE2 is rfl */ 
{ 6, 2, "RFILE2", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflWrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 }, 


RFILE3 is rfl */ 
{ 7, 3, "RFILE3", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflWrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 }, 


RFILE4 is rfl */ 
{ 8, 4, "RFILE4", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflWrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 }, 


RFILE5 is rfl */ 
{ 9, 5; *RFILDEb5", 
(void *)rflInit, (void *)ioerr, (void *)rflClose, 
(void *)rflRead, (void *)rflWrite, (void *)rflSeek, 
(void *)rflGetc, (void *)rflPutc, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 ), 


RDISK is rds */ 
{ L0, 0, "RDISK"*, 
(void *)rdsInit, (void *)rdsOpen, (void *)rdsClose, 
(void *)rdsRead, (void *)rdsWrite, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)rdsControl, 
(void *)0x0, (void *)ionull, 0 ), 


LFILESYS is lfs */ 
t IL, O, "LEILESYS*, 
(void *)lfsInit, (void *)lfsOpen, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 ), 
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/* LFILEO is lfl */ 
{ 12, 0, "LFILEO", 
(void *)lflInit, (void *)ioerr, (void *)1flClose, 
(void *)lflRead, (void *)lflWrite, (void *)1flSeek, 
(void *)lflGetc, (void *)lflPutc, (void *)lflControl, 
(void *)0x0, (void *)ionull, 0 }, 


/* LFILE1 is 1f1 */ 
{ 13, 1, "GFILEL", 
(void *)lflInit, (void *)ioerr, (void *)1f£1Close, 
(void *)lflRead, (void *)lflWrite, (void *)1f1Seek, 
(void *)lflGetc, (void *)1flPutc, (void *)1flControl, 
(void *)0x0, (void *)ionull, 0 }, 


/* LFILE2 is 1£1 */ 
t 14, 2, *LFILE2", 
(void *)lflInit, (void *)ioerr, (void *)1f£1Close, 
(void *)lflRead, (void *)1flWrite, (void *)1f1Seek, 
(void *)1f1Getc, (void *)1flPutc, (void *)1f1Control, 
(void *)0x0, (void *)ionull, 0 Jj, 
/* LFILE3 is lfl */ 
( 15, 3, "LEILE3", 
(void *)1flInit, (void *)ioerr, (void *)1f1Close, 
(void *)lflRead, (void *)lflwrite, (void *)1flSeek, 
(void *)1flGetc, (void *)1f1Putc, (void *)1flControl, 
(void *)0x0, (void *)ionull, 0 }, 


/* LFILE4 is lfl */ 
{ 16, 4, "LFILE4", 
(void *)lflInit, (void *)ioerr, (void *)1flClose, 
(void *)lflRead, (void *)lflWrite, (void *)1f1Seek, 
(void *)lflGetc, (void *)lflPutc, (void *)1flControl, 
(void *)0x0, (void *)ionull, 0 }, 


/* LFILE5 is Ifl */ 
{ 17, 5, "LEILE5", 
(void *)lflInit, (void *)ioerr, (void *)1flClose, 
(void *)lflRead, (void *)lflwrite, (void *)1flSeek, 
(void *)lflGetc, (void *)lflPutc, (void *)1flControl, 
(void *)0x0, (void *)ionull, 0 }, 


/* TESTDISK is ram */ 
{ 18, 0, "TESTDISK", 
(void *)ramInit, (void *)ramOpen, (void *)ramClose, 
(void *)ramRead, (void *)ramWrite, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 
(void *)0x0, (void *)ionull, 0 }, 


/* NAMESPACE is nam */ 
{ 19, 0, "NAMESPACE", 
(void *)namInit, (void *)namOpen, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 
(void *)ioerr, (void *)ioerr, (void *)ioerr, 
(void *)0x0, (void *)ioerr, 0 ) 
}; 


14.15 WA 
设备 独立 的 LO 是 现在 主流 计算 不 可 分 割 的 一 部 分 ， 它 的 优势 非常 明显 。 然 而 ， 仅 在 使 用 设备 独 
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xd VO 上 达成 共识 并 建立 初步 的 原 语 就 花费 了 计算 机 界 十 年 的 时 间 。 由 于 每 个 程序 语言 定义 的 YO 
抽象 集合 不 同 也 导致 了 很 多 的 争议 。 例 如 ，FORTRAN 语言 使 用 设备 号 ， 并 要 求 一 个 机 制 来 把 每 个 设备 
号 绑 定 到 LO 设备 或 者 文件 。 因 为 每 一 种 语言 都 实现 了 大 量 的 代码 ， 所 以 操作 系统 设计 者 想 要 兼容 所 
有 语言 。 这 里 的 问题 是 : 我 们 已 经 选择 了 最 好 的 设备 独立 的 VO 函数 集 ， 还 是 我 们 只 是 习惯 于 使 用 它 
们 而 没有 寻找 更 好 的 替代 品 ? 


14.16 总结 


操作 系统 隐藏 了 外 部 设备 的 细节 ， 提 供 了 抽象 集合 和 用 于 执行 VO 操作 的 设备 独立 的 函数 。 本 书 
示例 系统 使 用 九 个 IO fill P: open, close, control, getc, pute, read, write, seek 和 一 个 初始 化 函 
数 ，init。 在 我 们 的 设计 中 ， 每 个 0 原 语 都 是 同步 操作 的 ， 直 到 请 求 得 到 满足 (例如 ，read 函数 延迟 
调用 过 程 直 到 数据 已 经 到 达 ) 。 

Xinu 系统 为 每 一 个 设备 定义 了 抽象 设备 名 (Hel, CONSOLE), ， 并 给 设备 分 配 一 个 唯一 的 整 型 设 
备 描述 符 。 在 运行 时 系统 使 用 设备 转换 表 把 描述 符 绑 定 到 特定 的 设备 上 。 从 概念 上 来 讲 ， 设 备 转换 表 
中 一 行 对 应 一 个 设备 ， 一 列 对 应 一 个 抽象 O 操作 ， 附 加 的 列 指向 设备 的 控制 块 ， 次 级 设备 号 用 来 区 
分 一 台 物 理 设备 的 多 份 副 本 。 有 些 上 层 NO 函数 ， 比 如 read 或 者 write， 使 用 设备 转换 表 来 调用 设备 驱 
动 器 函数 来 完成 指定 设备 要 求 的 操作 。 单 独 的 驱动 器 可 以 中 断 一 个 特定 设备 上 的 调用 。 如 果 一 个 操作 
在 一 个 设备 上 是 无 意义 的 话 ， 那 么 设备 转换 表 应 该 为 其 配置 ionull 或 ioerr 函数 。 


练习 


14.1 识别 Linux 系统 上 所 有 抽象 VO 操作 。 

14.2 对 于 一 个 使 用 异步 VO 的 系统 ， 通 过 观察 一 个 VO 操作 完成 时 是 否 会 唤醒 一 个 运行 的 程序 来 识别 这 
种 异步 机 制 。 阐 述 这 两 种 机 制 哪 一 种 更 容易 实现 ， 同 步 还 是 异步 ? 

14.3 本 章 讨论 了 两 种 独立 的 绑 定 : 通过 设备 名 (比如 CONSOLE) 绑 定 描述 符 (比如 ，0) 和 通过 设备 描 
述 符 来 绑 定 硬 件 设 备 。 解 释 Linux 系统 如 何 进行 这 两 种 绑 定 。 

14.4 考察 示例 代码 中 有 关 设 备 名 的 实现 。 解 释 是 否 有 可 能 编写 一 个 程序 允许 用 户 输入 设备 名 (比如 
CONSOLE) 来 打开 设备 ， 为 什么 ? 

14.5 假设 在 调试 过 程 中 ， 你 怀疑 进程 正在 错误 地 调用 某 些 上 层 L/O 函数 ( 比如， 在 seek 操作 无 意义 的 设 
备 上 调用 seek) ， 应 该 如 何 快速 修改 你 的 代码 来 中 断 这 样 的 错误 并 显示 错误 进程 的 进程 标识 符 ?” (这 


种 修改 不 需要 重新 编译 源 代 码 。) 
14.6 解释 在 本 章 中 提 到 的 抽象 IO 函数 是 否 已 经 可 以 满足 所 有 的 IO 操作 ? (提示 : 考虑 UNIX 系统 中 的 
socket 函数 。) 


14.7 Xin 系统 把 设备 子 系统 定义 为 最 基本 的 L/O 抽象 并 把 文件 也 并 入 了 设备 系统 。UNIX 系统 定义 文件 
系统 是 最 基本 的 抽象 而 把 设备 也 归 为 文件 系统 。 请 比较 这 两 种 方式 的 差异 并 列举 各 自 的 优点 。 
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"Ju «jy — 
设备 驱动 示例 


现在 要 找到 一 个 品格 和 风度 辟 佳 的 司机 (FR) 是 非常 困难 的 。 





15.1 引言 

本 章 探索 VO 系统 中 的 通用 结构 ， 其 中 包括 中 断 处 理 及 实时 时 钟 管理 。 前 面 的 第 14 章 介绍 了 LO 
子 系统 的 组 成 结构 、LO 抽象 操作 和 集 以 及 应 用 设备 转换 表 的 高 效 实现 。 

本 章 继续 探索 VO 系统 。 在 本 章 中 ， 我 们 将 阐述 驱动 是 如 何 独立 于 底层 硬件 来 定义 高 层 抽 象 的 
O 服务 。 此 外 ， 本 章 还 详细 描述 在 概念 上 设备 驱动 上 半 部 及 下 半 部 的 划分 ， 并 解释 这 两 半 部 分 如 何 共 
享 数据 结构 (如 绥 冲 区 ) ， 以 及 如 何 交互 。 最 后 ， 本 章 将 给 出 一 个 异步 字符 串 行 设备 驱动 的 案例 。 


15.2 tty 抽象 

Xinu 使 用 tty 这 个 术语 来 指 代 字符 囊 行 设备 的 接口 抽象 ， 这 些 字符 品行 设备 包括 串 行 接口 、 键 盘 以 
及 文本 窗 体 S。 概 括 来 说 ，tty 设备 支持 双向 通信 : 进程 可 以 向 输出 端 发 送 字符 ， 并 从 输入 端 接收 字符 。 
尽管 底层 串 行 硬件 机 制 单独 地 处 理 输入 输出 ， 但 是 tty 抽象 允许 将 两 者 连接 起 来 。 举 例 来 说 ， 我 们 的 ty 
设备 支持 字符 回 显 操作 ， 即 驱动 的 输入 端 可 以 配置 为 将 每 一 个 输入 字符 的 拷贝 传输 到 输出 端 。 当 用 户 
在 键盘 上 输入 时 期 望 能 在 屏幕 上 同时 看 到 所 输入 的 字符 时 ， 回 显 操作 就 非常 重要 。 

tty 抽象 阐明 许多 设备 驱动 的 重要 特征 : 运行 时 可 以 选择 多 种 模式 。 我 们 的 tty 驱动 提供 三 种 不 同 的 
模式 ， 说 明 驱 动 在 将 输入 字符 传送 到 应 用 前 如 何 处 理 。 图 15-1 给 出 这 三 种 模式 的 总 结 及 其 特性 。 


























Box *& x | 

raw 驱动 在 接收 到 字符 后 ， 不 进行 回 显 、 缓 存 、 转 义 、 控 制 输出 流 等 操作 ， 直 接 传输 字符 串 | 

er 驱动 缓存 输入 ， 以 可 读 的 形式 回 显 字 符 ， 处 理 退 格 和 行 删除 ， 人 允许 提前 键入 ， 处 理 流 控制 ， 以 及 发 送 
整 行文 本 

cbreak 驱动 处 理 字符 转换 、 字 符 回 显 和 流 控制 ， 但 并 不 缓存 整 行文 本 ， 在 字符 到 达 时 直接 将 其 传送 出 去 











图 15-1 tty 抽象 支持 的 三 种 模式 


cooked 模式 旨 在 处 理 交 互 式 的 键盘 输入 。 每 当 接收 一 个 字符 时 ， 驱 动 回 显 该 字符 〈 即 将 一 份 该 字 
符 的 拷贝 传输 到 输出 端 )。 人 允许 用 户 在 输入 的 同时 看 到 所 输入 的 字符 。 回 显 并 不 是 强制 性 的 。 相 反 ， 驱 
动 中 有 一 个 参数 控制 字符 回 显 ， 这 意味 着 应 用 可 以 在 请 求 用 户 输入 密码 的 时 候 将 回 显 关闭 。cooked 模 
式 支 持 行 缓存 ， 即 驱动 在 收集 一 行 的 所 有 字符 之 后 才 将 其 传输 给 读 进程 。 因 为 tty 驱动 在 中 断 时 执行 字 
符 回 显 和 其 他 功能 ， 所 以 即使 没有 应 用 程序 来 读 取 字 符 ， 用 户 仍然 可 以 提前 键入 〈 即 在 当前 指令 运行 
期 间 ， 用 户 可 以 输入 下 一 条 指令 )。 行 缓 存 的 主要 优势 在 于 可 以 对 行进 行 编辑 ， 用 户 可 以 退 格 或 者 键入 
一 个 删除 整 行 的 特殊 字符 ， 以 便 重新 输入 该 行 。 

此 外 ，cooked 模式 还 提供 额外 的 两 个 功能 。 首 先 ， 它 处 理 输出 流 控 制 ， 人 允许 用 户 临 时 终止 输出 ， 
并 在 之 后 重启 输出 。 当 流 控 制 启用 时 ， 键 和 人 control-s 终止 输出 ; 键入 control-q 重启 输出 。 其 次 ，cooked 
模式 也 支持 输入 映射 。 尤 其 是 ， 有 些 计 算 机 或 应 用 使 用 一 个 包含 回 车 (cr) 和 换行 (IO) 的 双 字 符 串 
来 表示 一 行 的 结束 ， 另 一 些 仅 使 用 一 个 字符 。cooked 模式 包含 一 个 cl 参数 用 来 控制 驱动 如 何 处 理 行 


© ty 这 个 名 字 是 从 早期 UNIX 操作 系统 继承 下 来 的 ， 早 期 UNIX 操作 系统 使 用 ASCH 码 电 传 设备 ， 包 括 键盘 及 相关 
的 打印 机 制 。 
© 发 音 为 curl-if。 
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的 结束 。 当 用 户 输入 名 为 ENTER 或 者 RETURN 的 键 后 ， 驱 动 就 会 查询 该 参数 并 决定 是 否 给 应 用 传送 
一 个 换行 (也 称 为 NEWLINE) 或 者 映射 为 回 车 和 换行 组 成 的 双 字 符 序列 。 

raw 模式 旨 在 向 应 用 提供 没有 预 处 理 的 输入 字符 。 在 raw 模式 中 ，tty 驱动 仅 传送 字符 ， 而 不 解析 
或 者 变更 字符 。 驱 动 既 不 回 显 字 符 也 不 处 理 流 控制 。raw 模式 在 处 理 非 交互 通信 时 非常 有 用 ， 例 如 ， 
通过 串 行 线路 下 载 二 进 制 文件 ， 或 者 用 串 行 设 备 控制 传感器 。 

cbreak 模式 提供 一 种 介 于 cooked 模式 和 raw 模式 之 间 的 折 中 方案 。 在 cbreak 模式 中 ， 接 收 的 字符 
会 立即 传送 给 应 用 ， 不 需要 累积 至 一 行文 本 。 因 此 ， 驱 动 并 不 缓存 输入 ， 也 不 支持 退 格 、 行 删除 操作 。 
尽管 如 此 ， 驱 动 仍然 处 理 回 显 字 符 和 流 控制 。 


15. 3 tty 设备 驱动 的 组 成 

与 大 多 数 设备 驱动 一 样 ， 示 例 tty 驱动 也 被 划分 为 上 半 部 和 下 半 部 。 上 半 部 包含 可 被 应 用 进程 调用 
的 函数 (直接 从 设备 转换 表 调 用 ); 下 半 部 包含 设备 中 断 时 调用 的 函数 。 上 、 下 部 分 共享 包含 设备 的 
信息 、 驱 动 的 当前 模式 、 输 入 /输出 数据 缓冲 区 的 数据 结构 。 通 常 ， 上 半 部 函数 从 共享 数据 结构 读 取 数 
据 或 者 向 其 写 人 数据 ， 它 与 设备 硬件 的 交互 极 少 。 举 例 来 说 ， 上 半 部 函数 将 输出 数据 放置 在 共享 数据 
结构 中 ， 下 半 部 函数 访问 该 结构 内 的 数据 并 将 这 些 数据 发 送 到 设备 。 同 样 ， 下 半 部 函数 将 输入 数据 放 
置 在 共享 数据 结构 中 ， 上 半 部 函数 可 以 从 中 抽取 这 些 数据 。 

驱动 划分 的 目的 在 一 开始 并 不 好 理解 。 然 而 ， 我 们 可 以 看 出 将 驱动 划分 为 上 、 下 两 部 分 是 功能 性 
需求 ， 因 为 这 样 的 划分 允许 系统 设计 者 将 正常 处 理 与 硬件 终端 处 理 的 耦合 解除 ， 并 正确 理解 每 个 函数 
是 如 何 调用 的 。 这 里 的 关键 点 在 于 : 

当 创 建 一 个 设备 驱动 时 ， 程 序 员 需要 非常 小 心 的 保持 上 下 半 部 的 划分 ， 因 为 上 半 部 函数 
是 由 应 用 进程 调用 的 而 下 半 部 函数 是 由 中 断 调 用 的 。 


15.4 请 求 队列 和 缓冲 区 

驱动 中 的 共享 数据 结构 通常 包含 两 个 关键 元 素 : 

。 请 求 队列 。 

。 输入 /输出 缓冲 区 。 

请 求 队列 “原则 上 ， 在 被 上 、 下 半 部 共享 的 数据 结构 中 最 重要 的 元 素 是 上 半 部 存放 请 求 的 队列 。 
从 概念 上 来 讲 ， 请 求 队列 连接 由 应 用 指定 的 高 层 操作 和 运行 在 设备 上 的 低层 行为 。 每 个 驱动 有 它 自 己 
的 请 求 集合 ， 请 求 队列 中 元 素 的 内 容 依 赖 于 具体 的 设备 以 及 所 执行 的 操作 。 举 例 来 说 ， 发 送 给 磁盘 设 
备 的 请 求 指明 传输 的 方向 〈 读 或 写 ) 、 硬 盘 的 地 址 和 需要 传输 的 数据 量 。 发 送 给 网 络 设备 的 请 求 指明 
将 要 通过 网 络 传输 的 数据 包 集 。 我 们 的 示例 驱动 由 于 仅 包含 发 送 输出 字符 和 接收 输入 字符 这 两 个 操作 ， 
所 以 无 需 单 独 的 请 求 队列 。 因 此 ， 输 出 字符 队列 中 的 字符 可 以 看 成 发 送 请 求 ; 输入 字符 队列 中 的 空格 
可 以 看 成 接收 请 求 。 

缓冲 区 “驱动 使 用 输出 缓冲 区 来 存放 将 要 发 送 给 设备 的 数据 。 输 出 的 数据 项 在 应 用 将 其 发 送出 去 
至 设备 准备 好 接收 它 期 间 一 直 保留 在 缓冲 区 中 。 输 入 缓冲 区 则 存放 从 设备 接收 的 数据 。 输 入 的 数据 项 
在 设备 存储 该 项 至 某 一 进程 请 求 期 间 一 直 保留 在 缓冲 区 之 中 。 

缓冲 区 的 重要 性 体现 在 如 下 几 点 : 第 一 ， 驱 动 可 以 在 用 户 进 程 读 取 数 据 前 接收 输入 数据 并 放置 在 
输入 缓冲 区 中 。 输 入 缓冲 区 在 诸如 网 络 接口 或 者 键盘 等 设备 驱动 中 特别 重要 ， 其 原因 在 于 数据 包 可 以 
在 任意 时 刻 到 达 ， 用 户 也 可 以 在 任意 时 刻 输 入 某 个 键 。 第 二 ， 对 于 一 个 以 块 为 单位 传输 数据 的 设备 
(例如 硬盘 ) 来 说 ， 即 使 应 用 只 需 读 取 块 中 的 某 个 字符 ， 操 作 系统 也 必须 获取 整个 块 。 第 三 ， 缓 冲 区 
人 允许 驱动 支持 并 发 地 处 理 输入 /输出 。 当 进程 写 数据 时 ， 驱 动 将 数据 复制 到 输出 缓冲 区 中 ， 启 动 输出 操 
作 ， 并 让 进程 继续 执行 。 

对 于 每 个 串 行 设备 ， 示 例 ty 驱动 使 用 三 个 环形 字符 缓冲 区 : 输入 缓冲 区 、 输 出 缓冲 区 ， 以 及 回 显 
缓冲 区 。 回 显 字符 保存 在 与 正常 输出 不 同 的 缓冲 区 中 ， 因 为 回 显 字符 具备 更 高 的 优先 级 。 我 们 认为 每 
个 缓冲 区 都 是 一 个 概念 上 的 队列 ， 字 符 从 尾部 插入 、 从 头 部 读 出 。 图 15-2 阐释 了 环形 输出 缓存 的 概 
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念 ， 并 展示 用 内 存 中 字 节 数组 的 一 种 实现 。 











下 一 发 送 
数据 项 下 一 填充 槽 
( 头 部 ) (尾部 ) 
| | 
ERPE 
a) 用 做 队列 的 环 路 输出 缓冲 区 b) 用 字 节 数组 的 实现 方式 
图 15-2 


输出 函数 把 即将 发 送 的 字符 存储 在 输出 缓冲 区 中 ,并 返回 给 它 的 调用 者 。 当 它 将 字符 放置 在 输出 
缓冲 区 后 ， 上 半 部 函数 还 必须 启动 设备 上 的 输出 中 断 。 一 旦 设备 生成 输出 中 断 ， 下 半 部 函数 就 从 输出 
缓冲 区 中 提取 至 多 16 个 字符 ,然后 将 字符 存储 在 设备 的 先进 先 出 输出 队列 上 。 当 所 有 字 节 都 传输 完 
后 ,设备 再 次 中 断 。 因 此 输出 会 继续 直至 清空 输出 缓冲 区 ， 这 时 驱动 停止 输出 ,设备 恢复 空闲 状态 。 

输入 与 输出 相反 。 一 旦 接收 字符 ， 设 备 就 产生 中 断 ， 中 断 分 配器 调用 下 半 部 函数 〈 即 ，ttyInter- 
rupt) 。 中 断 处理 程 序 将 字符 从 设备 的 先进 先 出 队列 中 读 取 出 来 ， 并 存储 在 环 路 输入 缓冲 区 中 。 当 进程 
调用 上 半 部 函数 读 取 输入 时 ， 上 半 部 函数 从 输入 缓冲 区 中 读 取 字 符 。 

从 概念 上 来 讲 ， 驱 动 的 上 、 下 半 部 只 通过 共享 的 缓冲 区 来 通信 。 上 半 部 函数 将 输出 数据 放 在 缓冲 
KP, 或 者 从 缓冲 区 中 提取 输入 数据 。 下 半 部 函数 从 缓冲 区 提取 输出 数据 并 发 送 给 设备 ， 或 者 将 设备 
的 输入 数据 放 在 缓冲 区 中 。 总 之 : 

上 半 部 函数 在 进程 和 缓冲 区 之 间 传 输 数据 ， 下 半 部 函数 在 硬件 设备 和 缓冲 区 之 间 传 输 
数据 


15.5 上 半 部 和 下 半 部 的 同步 

在 实践 中 ， 驱 动 的 上 、 下 半 部 需要 处 理 数 个 共享 数据 结构 。 举 例 来 说 ， 如 果 设 备 空闲 ， 上 半 部 函 
数 就 可 能 需要 启动 输出 传输 。 更 重要 的 是 ， 两 个 部 分 需要 在 请 求 队列 和 缓冲 区 中 协调 操作 。 例 如 ， 如 
果 输 出 缓冲 区 没有 空 楷 ， 那 么 当 进程 试图 写 数据 时 ， 它 将 被 阻塞 。 之 后 当 缓冲 区 中 的 字符 被 传送 到 设 
备 中 ， 缓 冲 区 又 变 成 可 用 时 ， 必 须 允 许 阻塞 的 进程 继续 执行 。 同 样 ， 当 进程 尝试 从 设备 读数 据 时 ， 如 
果 输 入 缓冲 区 空闲 ， 那 么 进程 被 阻塞 。 之 后 当 接收 到 输入 数据 并 将 数据 放置 在 缓冲 区 中 时 ， 必 须 允 许 
等 待 输入 的 进程 继续 执行 。 

乍 一 看 ， 驱 动 上 半 部 和 下 半 部 之 间 的 同步 包括 两 个 生产 者 - 消费 者 协调 问题 ， 它 们 可 以 用 信号 量 来 
解决 。 在 输出 端 ， 上 半 部 函数 生产 数据 ， 下 半 部 函数 消费 数据 ; 在 输入 端 ， 下 半 部 函数 生产 输入 数据 ， 
下 半 部 函数 消费 数据 。 输 入 并 不 会 为 生产 者 - 消费 者 模型 带 来 任何 问题 ， 可 以 创建 信号 量 解决 协调 问题 。 
当 进程 调用 上 半 部 输入 函数 时 ， 进 程 等 待 输入 信和 号 量 直 至 下 半 部 生产 输入 数据 项 并 通知 该 信号 量 。 

和 输出 则 有 一 个 难题 需要 解决 。 为 了 理解 这 个 问题 ， 回 想 我 们 对 于 中 断 处 理 的 限制 : 由 于 中 断 例 程 
可 以 被 null 进程 执行 ， 所 以 它 并 不 能 调用 一 个 会 将 进程 状态 变更 为 除了 就 绪 或 者 当前 之 外 的 函数 。 特 
别 地 ， 下 半 部 函数 不 能 调用 wait。 因 此 ， 驱 动 不 能 通过 信号 量 实现 上 半 部 函数 生产 数据 ， 下 半 部 函数 
消费 数据 。 

如 何 协调 上 半 部 和 下 半 部 函数 的 输出 呢 ? 令 人 惊讶 的 是 ， 信 号 量 可 以 很 容易 地 解决 这 个 问题 。 方 
法 是 通过 变更 输出 信号 量 的 目的 ， 将 调用 转向 wait 函数 。 与 让 下 半 部 等 待 上 半 部 生产 数据 相反 ,让 上 
半 部 等 待 缓冲 区 中 的 空间 。 因 此 ， 下 半 部 不 再 看 成 消费 者 ， 相 反 ， 它 是 生产 缓冲 区 中 产生 空间 的 生产 
者 ， 并 通知 每 个 槽 对 应 的 信号 量 。 总 之 : 

信号 量 可 以 用 于 协调 驱动 的 上 、 下 半 部 。 为 了 防止 下 半 部 函数 被 阻塞 ,将 输出 设计 为 由 

上 半 部 函数 等 待 缓冲 区 中 的 空间 。 
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15.6 硬件 缓冲 区 和 了 驱动 设计 

硬件 的 设计 可 能 使 驱动 的 设计 复杂 化 。 以 E2100L 中 的 通用 异步 发 送 器 和 接收 器 为 例 ， 该 设备 包含 
两 个 板 载 的 缓冲 区 ， 称 为 先进 先 出 〈FIFO) 。 一 个 处 理 输入 字符 ， 另 一 个 处 理 输出 字符 。 每 个 FIFO 可 
以 缓存 16 个 字符 。 设 备 不 会 在 每 次 字符 到 达 时 发 出 中 断 。 相 反 ， 它 在 第 一 个 字符 到 达 时 发 出 中 断 ， 但 
在 处 理 中 断 前 持续 地 向 FIFO 中 写 和 人 字符 。 因 此， 当 系 统 收 到 一 个 输入 中 断 时 ， 驱 动 必 须 不 断 地 从 
FIFO 中 提取 字符 直至 FIFO 为 空 。 

多 个 输入 字符 如 何 影响 驱动 的 设计 呢 ? 考虑 如 下 情况 ， 当 进程 阻塞 在 输入 信和 号 量 时 ， 它 等 待 输入 
字符 的 到 来 。 理 论 上 ， 一 旦 驱动 从 设备 提取 一 个 字符 并 将 它 放 在 输入 缓冲 区 中 ， 它 应 该 通知 信号 量 重 
新 调度 ， 以 表明 输入 缓冲 区 中 有 字符 可 用 。 然 而 ， 这 样 做 会 立即 导致 上 下 文 切换 ， 让 FIFO 中 的 字符 没 
有 被 处 理 。 为 了 防止 这 一 问题 ， 我 们 的 驱动 使 用 sched. cni 临时 推迟 重新 调度 。 当 所 有 在 FIFO 中 的 字 
符 都 被 提取 出 来 并 处 理 完 后 ， 驱 动 再 次 调用 sched_cntl ， 允 许 其 他 进程 执行 。 


15.7 tty 控制 块 和 数据 声明 

如 果 系 统 包含 某 个 硬件 设备 的 多 个 拷贝 ， 那 么 操作 系统 只 保存 一 份 设备 驱动 代码 ， 但 对 每 个 设备 
都 创建 一 个 独立 的 共享 数据 结构 。 有 些 系统 使 用 术语 控制 块 来 描述 共享 数据 结构 ， 并 声明 给 每 个 物理 
设备 分 配 一 个 控制 块 。 当 它 运 行 时 ,设备 驱动 函数 将 接收 一 个 参数 ， 该 参数 表明 需要 使 用 哪 一 个 控制 
块 。 因 此 ， 如 果 一 个 特定 的 系统 有 三 个 使 用 同一 个 tty 抽象 的 串 行 设备 ， 那 么 这 个 操作 系统 只 拥有 一 份 
读 、 写 该 ty 设备 的 函数 ， 但 包含 三 份 tty 控制 块 的 独立 拷贝 。 

控制 块 存储 设备 信息 、 驱 动 以 及 请 求 队列 。 它 包含 缓冲 区 或 者 指向 内 存 中 缓冲 区 的 指针 。 控 制 
块 还 存储 上 、 下 半 部 用 以 协调 的 信息 。 举 例 来 说 ， 由 于 示例 wy 驱动 使 用 一 个 信号 量 来 协调 对 输出 缓冲 
区 的 访问 ,使 用 另 一 个 信号 量 来 协调 对 输入 缓冲 区 的 访问 ， 所 以 tty 控制 块 存储 这 两 个 信号 量 ID, 

文件 tty. h 中 的 代码 包含 对 uy 控制 块 数据 结构 的 定义 tycblk。 


/* tty.h */ 

#define TY OBMINSP 20 /* min space in buffer before *7 
/* processes awakened to write */ 

#define TY_EBUFLEN 20 /* size of echo queue */ 

/* Size constants */ 

#ifndef Ntty 

#define Ntty 1 /* number of serial tty lines »7 

#endif 

#ifndef TY_IBUFLEN 

#define TY_IBUFLEN 128 /* num. chars in input queue #} 

#endif 

#ifndef TY_OBUFLEN 

#define TY_OBUFLEN 64 /* num. chars in output queue wh 

#endif 


/* Mode constants for input and output modes */ 


#define TY_IMRAW 'R* /* raw mode => nothing done */ 
#define TY_IMCOOKED did /* cooked mode => line editing */ 
#define TY IMCBREAK "K /* honor echo, etc, no line edit*/ 
#define TY_OMRAW rR” /* raw mode => normal processing*/ 
struct ttycblk { /* tty line control block x*/ 





© sched eni 的 代码 可 以 在 5. 13 节 找 到 。 
O 在 某 些 系统 中 ， 输 入 /输出 缓冲 区 必须 放 在 内 存 的 特定 区 域 ， 使 设备 能 够 直接 访问 内 存 。 
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char *tyihead; /* next input char to read 水 
char *tyitail; /* next slot for arriving char */ 
char tyibuff[TY IBUFLEN]; /* input buffer (holds one line)*/ 
sid32 tyisem; /* input semaphore La 
char *tyohead; /* next output char to xmit wy. 
char *tyotail; /* next slot for outgoing char */ 
char tyobuff [TY OBUFLEN]; /* output buffer wy 
sid32 tyosem; /* output semaphore Ef 
char *tyehead; /* next echo char to xmit bad 4 
char *tyetail; /* next slot to deposit echo ch */ 
char tyebuff [TY_EBUFLEN] ; /* echo buffer *y 
char tyimode; /* input mode raw/cbreak/cooked */ 
bool8 tyiecho; /* is input echoed? f 
bool8 tyieback; /* do erasing backspace on echo?*/ 
bool8 tyevis; /* echo control chars as ^X ? *y 
bool8 tyecrlf; /* echo CR-LF for newline? wy 
bool8 tyicrlf; /* map ‘\r’ to 'Mn' on input? Rif 
bool8 tyierase; /* honor erase character? uf 
char tyierasec; /* erase character (backspace) */ 
bool8 tyeof; /* honor EOF character? EPA 
char tyeofch; /* EOF character (usually ^D) ad 
bool8 tyikill; /* honor line kill character? wy 
char tyikillc; /* line kill character *4 
int32 tyicursor; /* current cursor position * 
boo18 tyoflow; /* honor ostop/ostart? wf 
bool8 tyoheld; /* output currently being held? */ 
char tyostop; /* character that stops output  */ 
char tyostart; /* character that starts output */ 
boo18 tyocrlf; /* output CR/LF for LF ? kf 
char tyifullc; /* char to send when input full */ 


Ji 
extern struct ttycblk ttytab[]; 


/* Characters with meaning to the tty driver */ 


#define TY BACKSP Nb? /* Backspace character Rf 
#define TY_BELL NOT" /* Character for audible beep */ 
#define TY_EOFCH yod” /* Control-D is EOF on input E 
#define TY_BLANK È ie /* Blank Ry 
#define TY_NEWLINE tAn’ /* Newline == line feed id 
#define TY_RETURN ENE /* Carriage return character £y 
#define TY_STOPCH 'N023* /* Control-S stops output *j 
#define TY STRTCH A A /* Control-Q restarts output wy 
#define TY KILLCH ' N025* /* Control-U is line kill ii 
#define TY UPARROW next /* Used for control chars (^X) */ 
#define TY FULLCH TY BELL /* char to echo when buffer full*/ 


/* Tty control function codes */ 


#define TC NEXTC 3 /* look ahead 1 character EZ 
#define TC_MODER 4 /* set input mode to raw 4 
#define TC MODEC 5 /* set input mode to cooked *7 
#define TC MODEK 6 /* set input mode to cbreak x 
#define TC ICHARS 8 /* return number of input chars */ 
*define TC ECHO 9 /* turn on echo #7 
#define TC_NOECHO 10 /* turn off echo iat | 


结构 ttycblk 的 关键 组 件 包括 输入 缓冲 区 tyibuff、 输 出 缓冲 区 tyobuff 和 单独 的 回 显 缓冲 区 tyebuff。 








tty 驱动 中 的 每 个 缓冲 区 都 用 字符 数组 实现 。 驱 动 将 每 个 缓冲 区 看 成 一 个 循环 链表 ， 数 组 中 的 单元 0 好 
像 是 连接 着 最 后 一 个 单元 。 头 部 和 尾部 指针 分 别 给 出 数组 中 下 一 填充 地 址 和 下 一 个 清空 地 址 。 因 此 ， 
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程序 员 可 以 通过 下 面 这 条 简单 的 规则 来 记忆 : 
无 论 是 输入 缓冲 区 还 是 输出 缓冲 区 ， 字 符 通常 插 入 到 尾部 并 从 头 部 提取 出 来 。 
开始 ， 头 部 和 尾部 均 指 向 单元 0 号 ， 但 是 不 会 存在 输入 /输出 缓冲 区 是 空 的 还 是 满 的 这 种 误解 ， 因 
为 每 个 缓冲 区 均 有 一 个 信号 量 表示 当前 缓冲 区 中 的 字符 数目 。 信 和 号 量 tyisem 控制 输入 缓冲 区 时 ， 非 负 
数字 n 表示 缓冲 区 中 有 个 字符 。 信 号 量 tyosem 控制 输出 缓冲 区 时 ， 非 负数 字 表示 缓冲 区 中 有 个 
未 填充 的 柳 。 回 显 缓冲 区 则 是 一 个 例外 。 我 们 的 设计 假设 回 显 仅 用 在 输入 字符 时 ， 这 时 候 仅 有 少量 的 
字符 会 占据 回 显 队 列 。 因 此 ， 我 们 假设 不 会 溢出 ， 这 说 明 不 需要 信和 号 量 来 控制 回 显 队列 。 


15.8 次 设备 号 

前 面 提 到 ， 配 置 程序 为 系统 中 的 每 个 设备 分 配 一 个 唯一 的 设备 也。 需要 注意 的 是 ， 尽 管 系统 包含 
使 用 给 定 抽象 的 多 个 物理 设备 ,但 给 这 些 设备 分 配 的 设备 ID 可 能 并 不 连续 。 因 此 ， 如 果 系 统 包含 3 个 
tty 设备 ， 那 么 配置 程序 可 能 给 这 些 设备 分 配 的 设备 外 为 2、7、8。 

我 们 还 提 到 过 操作 系统 必须 为 每 个 设备 分 配 一 个 控制 块 。 举 例 来 说 ， 如 果 系 统 包含 3 个 tf 设备 ， 
那么 系统 必须 分 配 3 tty 控制 块 拷贝 。 许 多 系统 使 用 一 种 对 给 定 设备 控制 块 高 效 访问 的 技术 。 这 些 系 
统 给 每 一 个 设备 分 配 一 个 次 设备 号 ， 这 些 次 设备 号 是 从 0 开始 的 整数 。 因 此 ， 如 果 系 统 包 含 3 个 tty 设 
备 ， 那 么 它们 就 会 分 配 0、1、2 这 三 个 次 设备 号 。 

分 配 连续 的 次 设备 号 如 何 使 访问 更 加 高 效 呢 ? 次 设备 号 可 以 用 于 控制 块 数组 的 索引 。 举 例 来 说 ， 
考虑 tty 控制 块 是 如 何 分 配 的 。 与 tty. h 文件 说 明 一 样 ， 控 制 块 放置 在 ttytab 数组 中 。 系 统 配置 程序 将 
tty 设备 数 定义 为 常量 Ntty， 该 常量 用 于 声明 tiytab 数组 的 大 小 。 配 置 程序 为 这 些 uy 设备 分 配 从 0 ~ 
Ntty -1 的 次 设备 号 。 次 设备 号 存储 在 设备 转换 表 中 。 下 半 部 的 中 断 驱 动 例 程 和 上 半 部 的 驱动 例 程 均 可 
以 访问 该 次 设备 号 并 用 它 来 索引 ttytab 数组 。 


15.9 上 半 部 tty 字符 输入 (ttyGetc ) 


ttyGetc ttyPute, ttyRead 和 ttyWrite 这 4 个 函数 是 tty 驱动 上 半 部 的 主要 组 成 部 分 。 这 些 函 数 与 14 
章 中 描述 的 高 层 操作 gete, putec, read 和 write 一 一 对 应 。 最 简单 的 驱动 例 程 是 ttyGetc， 其 代码 可 以 在 
ttyGete. c 中 找到 。 


/* ttyGetc.c - ttyGetc */ 


#include <xinu.h> 


*/ 
devcall ttyGetc ( 
struct dentry *devptr /* entry in device switch table */ 
) 
{ 
char ch; 
struct ttycblk *typtr; /* pointer to ttytab entry wy 


typtr = &ttytab[devptr->dvminor] ; 
/* Wait for a character in the buffer */ 


wait (typtr->tyisem) ; 
ch = *typtr->tyihead++; /* extract one character x 


/* Wrap around to beginning of buffer, if needed */ 


if (typtr->tyihead >= &typtr-»tyibuff[TY IBUFLEN]) ( 
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typtr->tyihead = typtr->tyibuff; 
} 


if ( (typtr->tyimode == TY_IMCOOKED) && (typtr->tyeof) && 
(ch == typtr->tyeofch) ) ( 
return (devcall)EOF; 
) 


return (devcall)ch; 

) 

当 调用 ttyGete 时 ， 它 首先 从 设备 转换 表 中 获取 次 设备 号 ， 并 用 它 来 索引 ttytab 数组 以 获取 正确 的 
控制 块 。 然 后 它 执行 wait 程序 等 待 输入 信号 量 yisem， 并 阻塞 直到 下 半 部 存储 一 个 字符 到 缓冲 区 中 。 
当 wait 返回 时 ，ttyGete 从 输入 缓冲 区 中 获取 下 一 个 字符 并 更 新 头 指 针 ， 准 备 下 面 的 读 取 操 作 。 通 常 ， 
ttyGete 将 该 字符 返回 给 调用 者 。 然 而 ， 在 特殊 情况 下 : 如 果 驱 动 启用 文件 结束 符 并 且 字 符 与 文件 结束 
ff (控制 块 中 的 tyeofch 字段 ) 匹配 ，ttyGete 就 返回 常量 EOF, 


15.10 通用 上 半 部 tty 输入 (ttyRead ) 

使 用 read 操作 可 以 在 一 次 操作 中 获取 多 个 字符 。 实 现 read 操作 的 驱动 函数 ttyRead， 在 下 面 的 文件 
ttyRead. c 中 。ttyRead 在 原理 上 很 简单 : 它 通过 反复 调用 ttyGetc 来 获取 字符 。 当 驱动 以 cooked 模式 执 
行 时 ，ttyRead 返回 单行 输入 ， 在 NEWLINE 或 RETURN 字符 后 终止 ; 当 以 其 他 模式 执行 时 ，ttyRead 读 
取 字符 但 不 检查 行 结束 符 。 


/* ttyRead.c - ttyRead */ 


#include <xinu.h> 


*/ 
devcall ttyRead( 
struct dentry *devptr, /* entry in device switch table */ 
char  *buff, /* buffer of characters i 
int32 count /* count of character to read a d 
) 
{ 
struct  ttycblk *typtr; /* pointer to tty control block */ 
int32 avail; /* characters available in buff.*/ 
int32 nread; /* number of characters read ae | 
int32 firstch; /* first input character on line*/ 
char ei /* next input character RA 


if (count < 0) { 
return SYSERR; 
} 
typtr- &ttytab[devptr-»dvminor]; 


if (typtr->tyimode !- TY IMCOOKED) ( 
/* For count of zero, return all available characters */ 


if (count -- 0) ( 
avail = semcount (typtr-»tyisem); 
if (avail -- 0) ( 
return 0; 
) else ( 
count - avail; 


} 


终端 如 何 执行 read 操作 的 语义 说 明了 L/O 原 语 如 何 运 用 到 各 种 不 同 的 设备 和 模式 上 。 例 如 
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} 
} 
for (nread = 0; nread < count; nread++) { 
*buff++ = (char) ttyGetc(devptr) ; 
} 
return nread; 
} 


/* Block until input arrives */ 
firstch = ttyGetc(devptr) ; 
/* Check for End-Of-File */ 


if (firstch == EOF) { 
return (EOF); 
} 


/* read up to a line */ 


ch = (char) firstch; 
*buff++ = ch; 
nread = 1; 
while ( (nread < count) && (ch != TY NEWLINE) && 
(ch ! TY RETURN) ) ( 
ch = ttyGetc (devptr); 
*buf f++ = ch; 
nread++; 
} 


return nread; 
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raw 模式 的 应 用 程序 可 能 需要 非 阻塞 地 从 输入 缓冲 区 中 读 取 所 有 可 用 的 字符 。ttyRead 不 能 简单 地 反复 
调用 tyCete， 因 为 一 旦 缓冲 区 为 空 ，ttyCete 将 被 阻塞 。 为 了 满足 非 阻 塞 的 要 求 ， 我 们 的 驱动 允许 一 种 
通常 认为 是 非法 操作 的 行为 : 它 将 读 取 零 个 字符 的 请 求解 释 为 “ 读 取 所 有 等 待 中 的 字符 ”。 

ttyRead 中 的 代码 说 明了 在 raw 模式 中 长 度 为 0 的 请 求 是 如 何 处 理 的 : 驱动 使 用 semcount 来 获取 输 
入 信和 号 量 tyisem 的 当前 计数 ， 然 后 就 清楚 地 知道 可 以 调用 ttyGete 多 少 次 而 不 引起 阻塞 。 


对 于 cooked 模式 ， 驱 动 一 直 阻 蹇 ， 直 到 至 少 有 一 个 字符 到 达 。 它 处 理 文件 结束 字符 的 特殊 情况 ， 


然后 反复 地 调用 ttyGete 来 读 取 该 行 的 剩余 部 分 。 


15. 11 


上 半 部 tty 字符 输出 (ttyPutc) 


上 半 部 的 输出 例 程 几乎 与 输入 例 程 一 样 简单 。ttyPute 等 待 输出 缓冲 区 有 空间 ， 然 后 在 输出 队列 
tyobu 华 存储 特殊 的 字符 中 ， 递 增 队 列 的 尾 指针 tyotail。 文 件 ttyPute. c 包含 了 相关 代码 。 


/* ttyPutc.c - ttyPutc */ 


#include <xinu.h> 


*/ 


devcall ttyPutc( 


struct dentry  *devptr, /* entry in device switch table */ 
char ch /* character to write */ 
) 
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struct ttycblk *typtr; /* pointer to tty control block */ 
typtr = &ttytab[devptr-»dvminor]; 
/* Handle output CRLF by sending CR first */ 


if ( ch==TY_NEWLINE && typtr->tyocrlf ) { 
ttyPutc(devptr, TY RETURN); 
) 


wait(typtr-»tyosem); /* wait for space in queue */ 
*typtr->tyotail++ = ch; 


/* Wrap around to beginning of buffer, if needed */ 

if (typtr->tyotail >= &typtr-»tyobuff[TY OBUFLEN]) ( 
typtr->tyotail = typtr->tyobuff; 

} 


/* Start otuput in case device is idle */ 
ttyKickOut(typtr, (struct uart_csreg *)devptr-»dvcsr); 


return OK; 
) 


除了 上 述 处 理 外 ，ttyPute 还 接受 一 个 tty 参数 tyocnf， 然 后 开始 输出 。 当 tyocrlf 为 TRUE 时 ， 每 个 
NEWLINE 就 对 应 于 RETURN 和 NEWLINE 的 组 合 。ttyPute 通过 递归 地 调用 自身 来 输出 RETURN 字符 。 


15.12 开始 输出 (ttyKickOut) 

在 函数 ttyPute 返回 之 前 ， 它 调用 ttyKickOut 开始 输出 。 事 实 上 ，ttyKickOut 并 没有 对 设备 执行 任何 
输出 ， 因 为 当 输 出 中 断 产 生 时 ， 所 有 的 输出 已 经 被 下 半 部 的 函数 处 理 了 。 为 了 理解 ttyKickOut 是 如 何 
工作 的 ， 必 须知 道 操作 系统 如 何 与 硬件 设备 进行 交互 。 看 起 来 当 一 个 字符 准备 输出 的 时 候 ，ttyPute 会 
执行 以 下 步骤 : 

与 设备 交互 来 决定 设备 是 否 正 忙 ; 

if (设备 不 忙 ) | 

送 字符 到 设备 ; 

| else | 

当 输 出 结束 时 告诉 设备 进行 中 断 ; 

| 

不 幸 的 是 ， 设 备 是 与 处 理 器 并 行 运行 的 。 所 以 在 处 理 器 获取 了 设备 状态 与 指示 设备 进行 中 断 的 这 
段 时 间 内 ， 设 备 能 够 完成 处 理 。 

为 了 避免 竞争 条 件 ， 设 备 硬件 允许 操作 系统 不 检查 设备 状态 而 请 求 中 断 。 发 起 请 求 十 分 简单 ， 驱 
动 只 需要 对 设备 控制 寄存 器 中 的 某 一 位 进行 置 位 。 关 键 在 于 没有 竞争 条 件 发 生 ， 因 为 无 论 设备 正在 发 
送 字符 还 是 空闲 ， 置 位 操作 都 将 引起 中 断 。 如 果 设备 忙 ， 硬 件 将 等 待 直到 输出 完成 旦 板 载 缓 冲 区 为 空 
时 才 产 生 中 断 ; 如 果 设 备 空闲 ， 设 备 立 即 中 断 。 

对 设备 中 断 位 进行 置 位 仅 需要 一 条 赋值 语句 ， 相 关 代码 可 在 如 文件 tyKickOut c 中 找到 : 


/* ttyKickOut.c - ttyKickOut */ 


#include <xinu.h> 


* ttyKickOut - "kick" the hardware for a tty device, causing it to 
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* generate an output interrupt (interrupts disabled) 
p eve —-—-——————————————————————————— a Gam Sad ame Ba a 
di 
void ttyKickOut ( 
struct ttycblk *typtr, /* ptr to ttytab entry *y 
struct uart csreg *uptr /* address of UART's CSRs Fj 
) 
{ 


/* Set output interrupts on the UART, which causes */ 
g= the device to generate an output interrupt */ 


uptr->ier = UART_IER_ERBFI | UART_IER_ETBEI | UART_IER_ELSI; 


return; 


) 


15.13 上 半 部 tty 多 字符 输出 (ttyWrite) 

uy 驱动 也 文 持 多 字符 输出 传输 〈 如 写 操 作 ) 。 文 件 tty Write. c 中 的 驱动 函数 tyWrite 处 理 了 一 个 字 
节 或 多 个 字 节 的 输出 。ttyWrite 首先 检查 参数 count， 它 表示 将 要 写 的 字 节 数 。 负 值 是 无 效 的， 但 是 0 
是 有 效 值 ， 意 味 着 没有 字符 要 写 。 

— H ttyWrite 完成 了 对 参数 count 的 检查 ， 它 就 会 进入 一 个 循环 。 在 循环 的 每 次 迭代 中 ，tty- 
Write 首先 从 用 户 缓冲 区 中 提取 下 一 个 字符 ， 然 后 调用 ttyPute 将 该 字符 发 送 到 输出 缓冲 区 。 正 如 
我 们 看 到 的 ，ttyPute 会 连续 执行 直到 输出 缓冲 区 满 ， 此 时 调用 ttyPute 将 会 阻塞 直到 有 新 的 可 用 空 
间 出 现 。 282 

/* ttyWrite.c - ttyWrite, writcopy */ 














#include <xinu.h> 


wy 
devcall ttyWrite( 
struct dentry *devptr, /* entry in device switch table */ 
char *buff, /* buffer of characters wy 
int32 count /* count of character to write */ 
) 
{ 
if (count < 0) { 
return SYSERR; 
} else if (count == 0) { 
returm OK; 
} 
for (; count>0 ; count--) { 
ttyPutc(devptr, *buff++); 
} 
return OK; 
} 


15.14 下 半 部 tty 驱动 函数 (ttylnterrupt) 


tty 驱动 函数 的 下 半 部 在 中 断 发 生 时 被 调用 。 它 包括 函数 tyInterrupt， 如 文件 ttyInterrupt. c 中 
所 示 。 
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/* ttyInterrupt.c - ttyInterrupt */ 


#include <xinu.h> 


*/ 


interrupt ttyInterrupt (void) 


{ 


struct dentry  *devptr; /* pointer to devtab entry 
struct ttycblk *typtr; /* pointer to ttytab entry 
struct uart_csreg *uptr; /* address of UART's CSRs 
int32 iir = Di /* interrupt identification 
int32 lsr = 0; /* line status 


/* For now, the CONSOLE is the only serial device */ 
devptr = (struct dentry *)&devtab[CONSOLE]; 

/* Obtain the CSR address for the UART */ 

uptr = (struct uart csreg *)devptr-»dvcsr; 

/* Obtain a pointer to the tty control block */ 

typtr = &ttytab[ devptr->dvminor ]; 

/* Decode hardware interrupt request from UART device */ 
/* Check interrupt identification register */ 

iir = uptr->iir; 


if (iir & UART IIR IRQ) { 
return; 


/* Decode the interrupt cause based upon the value extracted 
/* from the UART interrupt identification register. Clear 
/* the interrupt source and perform the appropriate handling 
/* to coordinate with the upper half of the driver 


iir &- UART IIR IDMASK; 
switch (iir) ( 
/* Receiver line status interrupt (error) */ 
case UART IIR RLSI: 
lsr = uptr->lsr; 
return; 


/* Receiver data available or timed out */ 


case UART IIR RDA: 
case UART IIR RTO: 


Sched cntl(DEFER START); 


/* For each char in UART buffer, call ttyInter in */ 


/* Mask off the interrupt ID */ 


$7 
*/ 
&/ 
eh 


第 15 章 设备 驱动 示例 


while (uptr->lsr & UART_LSR_DR) { /* while chars avail */ 
ttyInter in(typtr, uptr); 
} 


sched cntl(DEFER STOP); 
return; 
/* Transmitter output FIFO is empty (i.e., ready for more) */ 


case UART IIR THRE: 
lsr = uptr->lsr; /* Read from LSR to clear interrupt */ 
ttyInter out(typtr, uptr); 
return; 


/* Modem status change (simply ignore) */ 


case UART IIR MSC: 
return; 
} 
} 


记得 处 理 程序 是 被 间接 调用 的 一 一 中 断 分 配器 在 设备 中 断 时 就 会 调用 处 理 程 序 。 我 们 后 面 将 看 到 
tty 初始 化 例 程 负责 安排 分 配器 和 ttyInterrupt 之 间 的 连接 。 现 在 只 需要 知道 在 以 下 的 任意 时 刻 处 理 函数 
都 会 被 调用 : 设备 接收 到 (一 个 或 多 个 ) 字符 ,或 者 设备 已 经 发 送 完 所 有 的 字符 到 其 FIFO 输出 队列 
中 ， 并 准备 好 处 理 更 多 的 字符 。 

从 设备 交换 表 中 获取 设备 CSR 地 址 后 ，ttyInterrupt 将 设备 CSR 地 址 载 人 变量 upr， 随 后 使 用 uptr 来 
访问 该 设备 。 关 键 步骤 为 读 取 中 断 识别 寄存 器 ， 并 使 用 该 值 来 确定 准确 的 中 断 原 因 。 驱 动感 兴趣 的 两 个 
原因 是 输入 中 断 〈 有 数据 到 达 ) 和 输出 中 断 〈 如 传输 FIFO 队列 为 空 并 且 驱 动能 够 发 送 额外 的 字符 ) 。 


15.15 输出 中 断 处 理 (ttyinter_out) 

输出 中 断 处 理 非常 容易 理解 。 当 输出 中 断 发 生 时 ,设备 已 经 传送 完 所 有 来 自 板 载 FIFO 的 字符 并 准 
备 好 人 处理 更 多 的 字符 。ttyInterrupt 清除 中 断后 ， 调 用 ttyInter_out 重新 开始 输出 。ttyInter_out 的 代码 可 以 
在 文件 ttyInter_out. c 中 找到 : 


/* ttyInter out.c - ttyInter out */ 





#include <xinu.h> 


/* Ra Rad am rts inis eli uus E Lau oa TT eiue ES teu: QUU Sur ulp QI Qui mij da quii tia AE: Inh Ganar Gus ds MES ames cii aid ent qs Mi. MER RR es qs E E tei Cn da vag i MN d 
* ttyInter out - handle an output on a tty device by sending more 
* characters to the device FIFO (interrupts disabled) 
Reit li e e —————————————ÀÁ————BQÓ€——— e 
R7 
void ttyInter out( 
struct ttycblk *typtr, /* ptr to ttytab entry */ 
struct uart_csreg *uptr /* address of UART's CSRs */ 
) 
{ 
int32 ochars; /* number of output chars sent */ 
yp* to the UART xf 
int32 avail; /* available chars in output buf*/ 
int32 uspace; /* space left in onboard UART *7 
ye output FIFO *f 


/* If output is currently held, turn off output interrupts */ 
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if (typtr->tyoheld) { 
uptr->ier = UART_IER_ERBFI | UART_IER_ELSI; 


return; 


} 


/* If echo and output queues empty, turn off output interrupts */ 
if ( (typtr->tyehead == typtr->tyetail) && 
(semcount (typtr->tyosem) >= TY_OBUFLEN) ) { 
uptr->ier = UART_IER_ERBFI | UART_IER_ELSI; 
return; 


) 


/* Initialize uspace to the size of the transmit FIFO */ 
uspace - UART FIFO SIZE; 


/* While onboard FIFO is not full and the echo queue is */ 
/* nonempty, xmit chars from the echo queue vl 


while ( (uspace>0) && typtr->tyehead != typtr->tyetail) { 
uptr->buffer = *typtr->tyehead++; 
if (typtr->tyehead >= &typtr->tyebuff[TY_EBUFLEN]) { 
typtr->tyehead = typtr->tyebuff; 
} 
uspace--; 


) 


/* While onboard FIFO is not full and the output queue */ 


/* is nonempty, xmit chars from the output queue wy 
ochars = 0; 

avail = TY_OBUFLEN - semcount (typtr->tyosem) ; 

while ( (uspace>0) && (avail > 0) ) { 


uptr->buffer = *typtr->tyohead++; 
if (typtr->tyohead >= &typtr->tyobuff[TY_OBUFLEN]) { 
typtr->tyohead = typtr->tyobuff; 
} 
avail--; 
uspace--; 
ochars++; 
} 
if (ochars > 0) { 
signaln(typtr->tyosem, ochars); 
È 
return; 
} 
在 开始 输出 之 前 ，ttyInter_out 进行 了 一 系列 的 测试 。 例 如 ， 如 果 用 户 输入 Ctrl +S 键 ， 则 不 应 该 开 
始 输出 。 类 似 地 ， 如 果 回 显 队列 和 输出 队列 都 为 空 ， 则 也 没有 必要 开始 输出 。 为 了 理解 ttyInter_out 如 
何 开 始 输出 的 ， 记 得 底层 硬件 上 有 一 个 能 够 保存 多 个 字符 的 板 载 FIFO。 一 旦 确定 要 开始 输出 ，ttyInter_ 
out 就 能 向 设备 发 送 最 多 UART_FIFO_SIZE (16) 个 字符 。 字 符 持续 地 发 送 直 到 FIFO 满 或 者 缓冲 区 为 
空 ， 无 论 哪个 事件 先 出 现 。 回 显 队 列 具 有 最 高 的 优先 级 。 所 以 ttyInter_out 首先 从 回 显 队列 中 发 送 字符 。 
如 果 还 有 多 余 的 空间 ，ttyInter_out 就 从 输出 队列 中 发 送 字 符 。 
理论 上 ， 每 当 将 tiyInter_out 从 输出 队列 中 删除 了 一 个 字符 并 将 该 字符 发 送 给 设备 时 ， 它 都 需要 向 
输出 信号 量 发 送信 号 ， 指 示 缓 冲 区 中 有 一 个 新 的 可 用 空间 。 但 是 ， 因 为 调用 signal 可 能 引起 重新 调度 ， 
所 以 ttyInter_out 不 能 立刻 调用 signal。 相 反 ， 它 仅仅 递增 变量 ochars 来 对 输出 队列 中 新 创建 出 的 空间 进 
行 计数 。 一 旦 填 满 FIFO (或 者 已 经 清空 输出 队列 ) ttyInter_out 就 调用 signaln 来 表示 缓冲 区 中 有 可 用 
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空间 。 


15.16 tty 输入 处 理 (tty Inter- in) 


由 于 板 载 输入 FIFO 可 以 包含 多 个 字符 ， 所 以 输入 中 断 处 理 比 输出 处 理 更 复杂 。 因 此 ，ttyInterrupts 
使 用 了 循环 来 处 理 输入 中 断 : 当 板 载 FIFO 队列 不 为 空 时 ，ttyInterrupt 调用 ttyInter in 函数 ，ttyInter_in 
函数 的 作用 是 每 次 从 UART 的 输入 FIFO 队列 中 取出 一 个 字符 并 进行 处 理 。 为 了 避免 在 循环 终止 时 所 有 
字符 都 从 设备 读 出 后 才 进 行 重 调度 ，ttyInterrupt 使 用 sched_cntl 函数 。 因 此 ， 尽 管 ttyInter_in 调用 了 sig- 
nal 使 得 每 个 字符 都 可 用 ， 但 是 只 有 在 所 有 的 字符 都 从 设备 上 读 出 后 才 会 进行 重 调度 。 

处 理 单个 输入 字符 是 uy 设备 驱动 最 复杂 的 部 分 ， 因 为 它 包 含 了 一 些 很 细节 化 的 代码 ， 比 如 字符 回 
显 和 行 编辑 。ttyInter_in 函数 处 理 过 程 有 三 种 模式 : raw、cbreak 和 cooked。 文 件 ttyInter_in. e 包含 了 这 
些 代码 。 


/* ttyInter_in.c ttyInter_ in, erasel, eputc, echoch */ 


#include <xinu.h> 


local void erasel (struct ttycblk *, struct uart csreg *); 

local void echoch(char, struct ttycblk *, struct uart csreg *); 

local void eputc(char, struct ttycblk *, struct uart csreg *); 

JE IE RE Uni tni undi ARE SIA OSSIA III III i sqft in cn deu cM IONI SEA 
* ttyInter in -- handle one arriving char (interrupts disabled) 
WO 
wy 

void ttyInter_in ( 

struct ttycblk *typtr, /* ptr to ttytab entry ui 
struct uart_csreg *uptr /* address of UART's CSRs Ey 
) 
{ 
char ch; /* next char from device ld 
int32 avail; /* chars available in buffer wy 
ch = uptr->buffer; /* extract char. from device */ 


/* Compute chars available */ 
avail = semcount (typtr->tyisem) ; 
if (avail < 0) { /* one or more processes waiting*/ 
avail = 0; 
} 
/* Handle raw mode */ 
if (typtr->tyimode == TY_IMRAW) { 
if (avail >= TY_IBUFLEN) { /* no space => ignore input */ 
return; 
} 
/* Place char in buffer with no editing */ 


*typtr->tyitail++ = ch; 


/* Wrap buffer pointer */ 





©  ttyInterrupt 的 代码 在 15. 14 节 。 
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if (typtr->tyotail >= &typtr-»tyobuff[TY OBUFLEN]) { 
typtr->tyotail = typtr->tyobuff; 


/* Signal input semaphore and return */ 


signal (typtr->tyisem) ; 
return; 


/* Handle cooked and cbreak modes (common part) */ 


if ( (ch == TY RETURN) && typtr->tyicrlf ) { 
ch = TY_NEWLINE; 


/* If flow control is in effect, handle ^S and ^Q */ 


if (typtr->tyoflow) ( 
if (ch == typtr->tyostart) ( /* ^Q starts output */ 
typtr->tyoheld = FALSE; 
ttyKickOut (typtr, uptr); 
return; 
} else if (ch == typtr->tyostop) { /* ^S stops output  */ 
typtr->tyoheld = TRUE; 


return; 
} 
} 
typtr->tyoheld = FALSE; /* Any other char starts output */ 
if (typtr->tyimode == TY_IMCBREAK) { /* Just cbreak mode */ 


/* If input buffer is full, send bell to user */ 


if (avail >= TY IBUFLEN) ( 
eputc(typtr-»tyifullc, typtr, uptr); 

} else { /* Input buffer has space for this char */ 
*typtr->tyitail++ = ch; 


/* Wrap around buffer */ 


if (typtr->tyitail>=&typtr->tyibuff[TY_IBUFLEN]) { 
typtr->tyitail = typtr->tyibuff; 

} 

if (typtr-»tyiecho) ( /* are we echoing chars?*/ 
echoch(ch, typtr, uptr); 


) 


return; 

) else ( /* Just cooked mode (see common code above) Si 
/* Line kill character arrives - kill entire line */ 
if (ch == typtr->tyikillc && typtr->tyikill) { 


typtr->tyitail -= typtr->tyicursor; 
if (typtr->tyitail < typtr->tyibuff) { 


typtr->tyihead += TY_IBUFLEN; 
} 
typtr->tyicursor = 0; 
eputc(TY_RETURN, typtr, uptr); 
eputc(TY NEWLINE, typtr, uptr); 
return; 
} 


/* Erase (backspace) character */ 


if ( (ch == typtr->tyierasec) && typtr->tyierase) { 
if (typtr->tyicursor > 0) { 
typtr->tyicursor--; 
erasel(typtr, uptr); 


return; 


/* End of line */ 


if ( (ch == TY_NEWLINE) || (ch == TY_RETURN) ) { 
if (typtr->tyiecho) { 
echoch (ch, typtr, uptr); 
} 
*typtr->tyitail++ = ch; 


if (typtr->tyitail>=&typtr->tyibuff [TY_IBUFLEN] ) 


typtr->tyitail = typtr->tyibuff; 
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/* Make entire line (plus Mn or Mr) available */ 


signaln(typtr->tyisem, typtr->tyicursor + 1); 
typtr->tyicursor = 0; /* Reset for next line 
return; 


/* Character to be placed in buffer - send bell if 
/* buffer has overflowed 


avail = semcount (typtr->tyisem) ; 

if (avail < 0) { 
avail = 0; 

} 

if ((avail + typtr->tyicursor) >= TY_IBUFLEN-1) { 
eputc(typtr->tyifullc, typtr, uptr); 
return; 


/* EOF character: recognize at beginning of line, but 
VA Print and ignore otherwise. 


if (ch == typtr->tyeofch && typtr->tyeof) 


if (typtr->tyiecho) { 


echoch(ch, typtr, uptr); 


) 

if (typtr->tyicursor != 0) ( 
return; 

} 


*typtr->tyitail++ = ch; 


ay 


ay 
=f 


xy 
Ey 
{ 
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signal (typtr->tyisem); 
return; 


/* Echo the character */ 
if (typtr->tyiecho) { 
echoch(ch, typtr, uptr); 
/* Insert character in the input buffer */ 


typtr->tyicursor++; 
*typtr->tyitail++ = ch; 


/* Wrap around if needed */ 


if (typtr->tyitail >= &typtr->tyibuff[TY_IBUFLEN]) { 
typtr->tyitail = typtr->tyibuff; 


} 
return; 
} 
} 
/* LISI ee Aaa 
* erasel -- erase one character honoring erasing backspace 
a r as ri tn i di n un Ep can ee eee ae Or Ec E E MU DU m CE M Ee M CE E C C M CD MUN MC EE E M CU LE MEE E E 
*/ 
local void erasel( 
struct ttycblk *typtr, /* ptr to ttytab entry i^a 
struct uart csreg *uptr /* address of UART's CSRs E 
) 
{ 
char ch; /* character to erase */ 


if ( (--typtr->tyitail) < typtr->tyibuff) ( 
typtr->tyitail += TY_IBUFLEN; 


/* Pick up char to erase */ 


ch = *typtr->tyitail; 


if (typtr->tyiecho) { /* Are we echoing? #7 
if (ch < TY_BLANK || ch == 0177) { /* Nonprintable */ 
if (typtr->tyevis) ( /* Visual cntl chars */ 


eputc(TY BACKSP, typtr, uptr); 

if (typtr->tyieback) ( /* erase char  */ 
eputc(TY BLANK, typtr, uptr); 
eputc(TY BACKSP, typtr, uptr); 


} 
eputc(TY BACKSP, typtr, uptr);/* bypass up arrow*/ 
if (typtr->tyieback) ( 
eputc(TY BLANK, typtr, uptr); 
eputc(TY BACKSP, typtr, uptr); 
} 
} else { /* A normal character that is printable ui 


eputc(TY_BACKSP, typtr, uptr); 
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if (typtr->tyieback) { /* erase the character */ 
eputc(TY BLANK, typtr, uptr); 
eputc(TY BACKSP, typtr, uptr); 


local void echoch( 


char ch, /* character to echo ba 
struct ttycblk *typtr, /* ptr to ttytab entry ui 
struct uart_csreg *uptr /* address of UART's CSRs t$ 


if ((ch--TY NEWLINE || ch--TY RETURN) && typtr->tyecrlf) { 


eputc(TY RETURN, typtr, uptr); 
eputc(TY NEWLINE, typtr, uptr); 


) else if ( (ch<TY_BLANK||ch==0177) && typtr->tyevis) ( 


eputc(TY UPARROW, typtr, uptr); /* print ^x 


* 


eputc(ch+0100, typtr, uptr); /* make it printable id d 


) else ( 
eputc(ch, typtr, uptr); 


local void eputc( 


char ch, /* character to echo wy 
struct ttycblk *typtr, /* ptr to ttytab entry ay 
struct uart_csreg *uptr /* address of UART’s CSRs * 


*typtr->tyetail++ = ch; 


/* Wrap around buffer, if needed */ 


if (typtr->tyetail >= &typtr-»tyebuff[TY EBUFLEN]) 


typtr->tyetail = typtr->tyebuff; 
} 
ttyKickOut (typtr, uptr); 
return; 


15. 16.1 raw 模式 处 理 


raw 模式 最 容易 理解 ， 只 有 几 行 代码 。 在 raw 模式 中 ，ttyInter_in 检测 输入 缓冲 区 是 否 还 有 空闲 空 
间 。 它 通过 比较 输入 信和 号 量 的 数量 〈 即 缓冲 区 中 可 用 的 字符 数量 ) 和 缓冲 区 大 小 来 完成 检测 。 如 果 没 
有 空闲 空间 ，ttyInter_in 仅仅 只 是 返回 〈 即 丢弃 字符 ) 。 如 果 有 空闲 空间 ，ttyInter_in 将 字符 放 在 输入 组 


冲 区 尾部 ， 并 移动 到 下 一 个 缓冲 区 的 位 置 ， 通 知 输入 信号 量 并 返回 。 


{ 
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15. 16. 2 cbreak 模式 处 理 
cooked 和 cbreak 模式 共享 一 段 代码 ， 这 段 代码 将 RETURN 映射 到 NEWLINE， 并 进行 输出 流 控制 。 
288 say 控制 块 中 的 字段 tyoflow 决定 驱动 是 否 进行 流 控制 。 如 果 进 行 流 控制 ， 那 么 当 驱 动 收 到 字符 tyostop 
294| ”时 ， 通 过 设置 yoheld Jy TRUE 中 断 输出 ; 当 收 到 tyostart 时 重新 开始 输出 。tyostart 和 tyostop 被 认为 是 
“控制 ”字符 ， 驱 动 不 会 将 它们 放 入 缓冲 区 
cbreak 模式 检测 输入 缓冲 区 ， 并 在 级 冲 区 满 时 发 送 字符 Wifulle。 一 般 来 说 ，tyifulle 会 像 “铃声 " 
_ 样 使 控制 台 发 出 响亮 的 警报 声 。 这 个 想法 的 目的 是 为 了 让 打字 的 人 能 够 听 到 警报 声 并 停止 打字 , 直 
到 字符 都 读 入 ， 有 更 多 的 缓冲 区 空间 被 释放 出 来 。 如 果 缓 冲 区 有 空闲 空间 ， 程 序 就 将 字符 放 和 人 其 中 ， 
并 在 有 必要 时 回 绕 指 针 。 最 后 ，cbreak 模式 调用 echoch 进行 字符 回 显 。 














15. 16. 3 cooked 模式 处 理 


cooked 模式 与 cbreak 模式 非常 相似 ， 唯 一 的 区 别 在 于 它 还 进行 行 编辑 。 驱 动 不 断 地 读 入 字符 行 到 
数据 缓冲 区 中 ， 通 过 变量 tyicursor 来 标明 当前 行 中 的 字符 数 。 当 接收 到 清除 字符 tyierase 时 ，ttyInter_in 
将 tyicursor 减 1， 并 回 退 一 个 字符 ， 同 时 调用 函数 erase] 清除 显示 的 字符 。 当 收 到 抹 行 符 tyikille IY, 
ttyInter_in 通过 设置 tyicursor 为 0 来 消除 当前 行 ， 并 将 尾 指 针 退 回 到 行 开始 处 。 最 后 ， 当 收 到 NEWLINE 
或 者 RETURN 符号 时 ，ttyInter_in 调用 signaln 将 整个 输入 行 变 为 可 用 。 它 为 下 一 行 把 tyicursor 重 置 为 
0。 这 里 需要 注意 的 是 ， 检 测 缓冲 区 是 否 为 满 的 测试 ， 会 在 缓冲 区 中 给 行 终止 符 ( 即 NEWLINE) 保留 
一 个 额外 的 空间 。 


15.17 tty 控制 块 初始 化 (ttylnit) 


在 下 文 所 示 的 文件 ttyInit c H, PC ttyInit 初始 化 tty 控制 块 中 的 字段 。TtyInit 使 用 dvirq 作为 中 断 
向 量 表 的 索引 ， 将 中 断 函 数 的 地 址 赋予 向 量 。 然 后 将 控制 块 初始 化 为 cooked 模式 ， 创 建 输入 信号 量 和 
输出 信号 量 ， 并 分 别 设置 缓冲 区 的 头 指针 和 尾 指针 。 在 完成 了 驱动 参数 、 绥 冲 区 和 中 断 向 量 的 初始 化 
后 ，ttyInit 清空 硬件 上 的 接收 缓冲 区 ， 人 允许 接收 中 断 ， 并 禁止 发 送 中 断 。 

ttyInit 将 tty 初始 化 为 cooked 模式 ， 并 假设 它 连接 到 了 人 可 以 使 用 的 键盘 和 显示 器 上 。 选 取 的 参数 
能 够 使 视频 设备 而 不 是 纸 质 设备 工作 在 最 好 状态 ， 这 些 视 频 设 备 能 够 在 显示 器 上 回 退 字符 。 特 别 地 ， 
当 ttyInter_in 收 到 清除 字符 tyierase 时 ， 参 数 tyieback 使 函数 回 显 3 个 字符 : 退 格 -空格 - 退 格 (back- 
space-space-backspace) 。 在 显示 屏幕 上 ， 发 送 这 样 一 个 3 字符 序列 的 效果 就 好 像 用 户 窗 盖 了 它们 。 回 
头 看 看 函数 ttyInter_in ， 你 会 发 现 它 很 小 心地 填充 了 合适 数目 的 空格 符 ， 即 使 用 户 要 清除 的 是 一 个 占 

两 个 字符 位 的 控制 字符 。 


/* ttyInit.c - ttyInit */ 
#include «xinu.h» 


struct ttycblk ttytab[Ntty]; 


EY 
devcall ttyInit( 
struct dentry *devptr /* entry in device switch table */ 
) 
{ 
struct ttycblk *typtr; /* pointer to ttytab entry */ 
struct uart_csreg *uptr; /* address of UART's CSRs */ 





© ttylnter in 的 代码 可 以 在 16.11 节 找 到 。 
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typtr = &ttytab[ devptr->dvminor ]; 


/* Initialize values in the tty control block */ 


LU 


typtr->tyihead = typtr->tyitail /* set up input queue at i 


&typtr-»tyibuff [0]; pe as empty *y 
typtr->tyisem = semcreate(0); . /* input semaphore */ 
typtr->tyohead = typtr->tyotail = /* set up output queue */ 

&typtr-»tyobuff [0]; pa as empty *y 
typtr->tyosem = semcreate(TY OBUFLEN);  /* output semaphore xy 
typtr->tyehead = typtr->tyetail = /* set up echo queue *y 

&typtr->tyebuff[0]; p* as empty */ 
typtr->tyimode = TY IMCOOKED; /* start in cooked mode */ 
typtr->tyiecho = TRUE; /* echo console input */ 
typtr->tyieback = TRUE; /* honor erasing bksp */ 
typtr->tyevis = TRUE; /* visual control chars */ 
typtr->tyecrlf = TRUE; /* echo CRLF for NEWLINE*/ 
typtr->tyicrlf = TRUE; /* map CR to NEWLINE ati 
typtr->tyierase = TRUE; /* do erasing backspace */ 
typtr->tyierasec = TY_BACKSP; /* erase char is ^H R 
typtr->tyeof = TRUE; /* honor eof on input */ 
typtr->tyeofch = TY_EOFCH; /* end-of-file character*/ 
typtr->tyikill = TRUE; /* allow line kill my 
typtr->tyikillc = TY_KILLCH; /* set line kill to ^U */ 
typtr->tyicursor = 0; /* start of input line */ 
typtr->tyoflow = TRUE; /* handle flow control */ 
typtr-->tyoheld = FALSE; /* output not held A 
typtr->tyostop = TY_STOPCH; /* stop char is ^S ai 
typtr->tyostart = TY_STRTCH; /* start char is ^Q */ 
typtr->tyocrlf = TRUE; /* send CRLF for NEWLINE* / 
typtr->tyifullc = TY_FULLCH; /* send ^G when buffer */ 

ud is full xd 


/* Initialize the UART */ 
uptr = (struct uart csreg *)devtab[CONSOLE] .dvcsr; 
/* Set baud rate */ 
uptr->lcr = UART LCR 8N1; /* 8 bit char, No Parity, 1 Stop*/ 
uptr-»fcr = 0x00; /* Disable FIFO for now */ 
/* OUT2 value is used to control the onboard interrupt tri-state*/ 
/* buffer. It should be set high to generate interrupts uu 
uptr->mcr = UART MCR OUT2; /* Turn on user-defined OUT2 */ 
/* Enable interrupts */ 
/* Enable UART FIFOs, clear and set interrupt trigger level ef 
uptr->fcr = UART_FCR_EFIFO | UART_FCR_RRESET 

| UART_FCR_TRESET | UART_FCR_TRIG2; 
/* Register the interrupt handler for the dispatcher */ 
interruptVector[devptr-»dvirq] = (void *)devptr->dvintr; 


/* Ready to enable interrupts on the UART hardware */ 


enable_irq(devptr->dvirq); 
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ttyKickOut(typtr, uptr); 


return OK; 


15.18 设备 驱动 控制 


到 目前 为 止 , 我 们 已 经 讨论 过 了 驱动 中 的 函数 ， 如 处 理 上 层 数据 传输 操作 的 函数 (如 read 和 
write) 、 处 理 下 层 输 入 中 断 和 输出 中 断 的 函数 以 及 在 系统 启动 时 的 初始 化 函数 。 在 第 14 BE LY YO 
接口 提供 了 男 一 种 无 发 送 操作 的 函数 : control, control 允许 应 用 程控 制 设备 驱动 或 者 控制 基础 的 设备 。 
在 我 们 的 驱动 例子 中 ，ttyControl 函数 提供 了 基本 的 控制 功能 : 


/* ttyControl.c - ttyControl */ 


#include <xinu.h> 


/* cacciata ME ME GE AE A S E CM CE MUR MEG ME EE MC CM EIE DE Eie MR ME E 
* ttyControl - control a tty device by setting modes 
W aa ac qi miu Quum e Rao anl Ue Rd Er d ma M End dd usn duce na a As Ga a m E M C E E a EE MESE 
bal | 
devcall ttyControl ( 
struct dentry *devptr, /* entry in device switch table */ 
int32 func, /* function to perform EJ 
int32 argl, /* argument 1 for request #/ 
int32 arg2 /* argument 2 for request =f 
) 
{ 
struct ttycblk *typtr; /* pointer to tty control block */ 
char ch; /* character for lookahead f 


typtr - &ttytab[devptr-»dvminor]; 


/* Process the request */ 
switch ( func ) ( 


case TC NEXTC: 
wait (typtr->tyisem) ; 
ch = *typtr->tyitail; 
signal (typtr->tyisem) ; 
return (devcall)ch; 


case TC_MODER: 
typtr->tyimode = TY_IMRAW; 
return (devcall)OK; 


case TC MODEC: 
typtr->tyimode = TY IMCOOKED; 
return (devcall)OK; 


case TC MODEK: 
typtr->tyimode = TY IMCBREAK; 
return (devcall)OK; 


case TC ICHARS: 
return (semcount (typtr-»tyisem)); 


case TC ECHO: 
typtr->tyiecho = TRUE; 
return (devcall)OK; 
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case TC NOECHO: 
typtr->tyiecho = FALSE; 
return (devcall)OK; 


default: 
return (devcall) SYSERR; 
1 


) 

TC NEXTC 允许 应 用 程序 “向 前 看 ”(1lookahead) (也 就 是 ， 发 现 等 待 读 取 的 下 一 个 字符 是 什 
么 ， 但 是 没有 真正 读 取 下 一 个 字符 ) 。 用 户 可 以 通过 3 个 控制 功能 (TC MODER, TC. MODERC 
和 TC_MODERK) 设置 tty 驱动 的 模式 。TC_ECHO 和 TC_NOECHO 控制 字符 回 显 ， 允 许 调用 者 关 
闭 回 显 、 接 收 输 入 ， 然 后 再 打开 回 显 。TC_ICHARS 使 用 户 可 以 通过 查询 驱动 来 决定 多 少 个 字符 在 
输入 队列 中 等 待 。 

善于 观察 的 读者 也 许 已 经 注意 到 了 ， 在 函数 tty Control 中 没有 使 用 参数 argl 和 arg2。 然 而 声明 它们 
是 因为 设备 无 关 的 常规 LAO 控制 总 是 在 调用 ttyControl 时 提供 4 个 参数 。 即 使 编译 器 不 能 在 间接 调用 中 
进行 类 型 检查 ， 去 掉 参 数 声明 也 会 使 代码 的 移植 性 变 差 ， 且 变 得 难 懂 。 


15.19 WA 


代码 的 长 度 揭示 了 设备 驱动 一 个 很 重要 的 方面 。 要 理解 这 一 点 ， 可 以 比较 简单 串 行 设备 驱动 的 代 
码 量 与 用 于 消息 传送 和 处 理 同 步 的 代码 量 。 尽 管 消 息 传送 和 信号 量 分 别提 供 了 强 有 力 的 抽象 ,但 是 代 
码 量 仍然 很 小 。 

为 什么 一 个 微小 的 设备 驱动 包含 这 么 多 代码 ? 毕竟 ， 驱 动 只 需要 读 和 写字 符 串 。 答 案 在 于 ， 硬 件 
提供 的 抽象 层 和 驱动 提供 的 抽象 层 是 不 同 的。 底层 硬件 仅仅 传送 字符 ， 输 出 端 和 输入 端 是 相互 独立 的 。 
因此 ， 硬 件 不 会 进行 流 控制 或 字符 回 显 。 而 且 ， 硬 件 不 知道 任何 关于 行 结束 符号 的 信息 。 所 以 ， 驱 动 
需要 处 理 更 多 细节 问题 。 

虽然 看 上 去 可 能 会 很 复杂 ， 但 是 本 章 中 的 示例 驱动 还 是 很 小 的 。 一 个 作为 产品 的 设备 驱动 可 能 包 
含 数 万 行 代码 ， 其 中 可 能 有 数 百 个 函数 。 可 以 在 运行 时 插入 的 设备 驱动 (如 USB 设备 ) 比 静 态 设备 驱 
动 更 复杂 。 所 以 ,作为 一 个 整体 ， 驱 动 的 代码 兼 具 大 规模 性 和 复杂 性 。 


15.20 Ba 


设备 驱动 是 函数 的 集合 ， 这 些 函 数控 制 外 围 硬件 设备 。 这 些 驱 动 程序 分 为 两 部 分 : 上 半 部 分 包含 
由 应 用 程序 调用 的 函数 组 成 ， 下 半 部 分 由 中 断 发 生 时 系统 调用 的 函数 组 成 。 这 两 部 分 函数 通过 一 个 称 
为 设备 控制 块 的 共享 数据 结构 进行 通信 。 

本 章 中 的 示例 设备 驱动 用 于 控制 tty 设备 。 它 管理 硬件 之 上 的 输入 和 输出 功能 ， 如 链接 到 键盘 。 上 
半 部 分 函数 实现 了 read, write, gete, pute, control 操作 。 每 一 个 上 半 部 分 函数 通过 设备 转换 表 被 间接 
调用 。 下 半 部 分 函数 处 理 中 断 。 在 输出 中 断 过 程 中 ， 下 半 部 分 函数 把 回 显 或 输出 队列 字符 填 人 板 载 
FIFO 队列 里 。 在 输入 中 断 过 程 中 ， 下 半 部 分 函数 从 输入 FIFO 中 抽取 字符 并 对 其 进行 处 理 。 


练习 

15.1 预测 当 两 个 进程 同时 执行 tyRead 并 同时 要 求 处 理 大 数量 的 字符 时 ， 会 发 生 什 么 ? 做 个 实验 测试 一 
下 ， 并 检查 结果 。 

15.2 Kprintf 使 用 轮 询 VO: 禁止 中 断 、 等 待 直到 设备 空闲 、 显 示 消 息 ， 然 后 恢复 中 断 。 如 果 输 出 缓冲 区 
是 满 的 并 且 反 复 调 用 kprintf 显示 NEWLINE 字符 时 ， 会 发 生 什 么 ? 并 解释 。 

15.3 有 些 系统 将 异步 设备 驱动 分 为 3 个 等 级 : 中 断 级 别 〈 只 传送 字符 给 设备 和 从 设备 接收 字符 ) 、 
高 级 级 别 ( 传送 字 符 给 用 户 并 从 用 户 接收 字符 ) 和 中 等 级 别 (实现 处 理 字符 回 显 、 流 控制 、 
特别 处 理 和 带 外 信号 量 等 线程 规程 )。 将 Xinu tty 驱动 转换 为 三 级 调度 ， 并 让 进程 执行 中 等 
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级 层 的 代码 。 

假设 两 个 进程 同时 尝试 使 用 CONSOLE 设备 上 的 write( ) 函数 ， 输 出 会 是 什么 ? 为 什么 ? 
实现 一 个 控制 函数 ， 允 许 一 个 进程 获得 CONSOLE 设备 的 独占 使 用 权 ， 以 及 男 一 个 控制 函数 ， 
使 得 进程 可 以 释放 它 的 使 用 权 。 

ttyControl 很 低 效 地 进行 模式 转换 ， 因 为 它 不 会 重 置 光 标 和 缓冲 区 指针 。 重 写 代 码 改进 这 一 点 。 
当 部 分 地 输入 一 行 ， 并 同时 从 cooked 模式 转换 到 raw 模式 时 ， 会 发 生 什么 ? 

当 连 接 两 台 计算 机 时 ， 在 双向 上 进行 流 控制 是 很 有 用 的 。 修 改 tty 驱动 ， 使 它 包 含 “tandem” 模 
式 ， 在 这 个 模式 中 ， 可 以 在 输入 缓冲 区 快要 满 时 发 送 Control-S， 并 在 缓冲 区 半空 时 发 送 Control-Q。 
当 用 户 切换 tty 设备 的 模式 时 ， 对 于 正在 输入 队列 上 的 字符 〈 在 模式 转换 前 已 经 被 接收 了 ) ， 应 该 怎 
么 处 理 ? 一 种 可 能 性 是 将 队列 抛弃 。 修 改 代码 实现 这 一 可 能 的 功能 。 
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DMA 设备 和 驱动 (以 太 网 ) 





与 现代 硬件 打交道 是 极其 困难 的 事情 。 
— — FISM - 布 坎 南 


16.1 引言 

前 面 几 章 考虑 了 通用 的 VO 模式， 并 解释 设备 驱动 如 何 协调 工作 。 第 15 章 给 出 了 一 个 uy 驱动 例 
子 来 说 明 上 层 部 分 和 底层 部 分 是 如 何 相互 作用 的 。 

本 章 将 扩展 对 VO 设备 驱动 的 讨论 ， 并 设计 一 种 硬件 设备 驱动 ， 可 以 对 内 存 数据 进行 传输 。 本 章 
使 用 一 个 以 太 网 接口 作为 例子 ， 展 示 CPU 如 何 通知 设备 当前 可 用 的 缓冲 区 ， 以 及 设备 如 何在 不 需要 处 
理 器 的 情况 下 访问 缓冲 区 并 且 在 总 线 上 传输 数据 。 


16.2 直接 内 存 访问 和 缓冲 区 

虽然 总 线 一 次 只 能 传输 一 个 字 的 数据 ， 但 是 一 个 块 设备 ， 如 磁盘 或 网 络 接 口 ， 需 要 多 个 字 的 数据 
传输 以 满足 一 个 给 定 的 请 求 。 直 接 内 看 访问 (DMA) 的 目的 是 实现 并 行 性 : 通过 增加 0 设备 的 智 
能 ， 使 设备 在 不 需要 CPU 中 断 的 情况 下 可 以 执行 多 次 总 线 数据 传输 。 因 此 ， 有 具有 DMA 功能 的 磁盘 可 
以 在 CPU 中 断 之 前 ， 完 成 整个 磁盘 块 在 内 存 和 设备 之 间 的 传输 。 对 于 网 络 接口 ， 可 以 在 CPU 中 断 之 前 
传输 整个 数据 包 。 

DMA 输出 是 很 容易 理解 的 。 例 如 ， 考 虑 DMA 输出 到 磁盘 设备 。 操 作 系统 将 数据 写 人 内 存 缓冲 区 
中 ， 通 过 一 个 写 请 求 将 缓冲 区 的 地 址 传送 给 磁盘 设备 ， 人 允许 CPU 继续 执行 原来 的 作业 ， 同 时 DMA 通 
过 总 线 将 数据 从 内 存 缓冲 区 写 人 磁盘 。 一 旦 整个 块 已 经 从 内 存 中 读 出 ， 并 写 人 磁盘 中 时 ，DMA 向 CPU 
发 送 一 个 中 断 。 如 果 还 有 一 个 的 磁盘 块 准备 输出 ， 那 么 操作 系统 就 可 以 启动 另 一 次 DMA 操作 传输 
该 块 。 

DMA 输入 以 另 一 种 方式 工作 。 为 了 读 取 一 个 磁盘 块 ， 操 作 系 统 首先 分 配 一 个 内 存 缓冲 区 ， 然 后 将 
缓冲 区 地 址 连同 读 操 作 请 求 发 送 给 设备 。DMA 传输 开始 后 ， 操 作 系统 将 继续 执行 原来 的 作业 。 在 CPU 
执行 的 同时 ，DMA 使 用 总 线 将 数据 块 从 磁盘 传输 到 内 存 缓冲 区 。 一 旦 整个 块 已 经 写 人 内 存 缓冲 区 ， 
DMA 就 中 断 CPU。 因 此 ， 每 个 块 传输 只 有 一 次 DMA 中 断 。 


16.3 多 缓冲 区 和 环 

实际 的 DMA 设备 比 上 文 提 到 的 更 复杂 。 在 实际 中 ， 操 作 系统 分 配 多 个 缓冲 区 ， 通 过 链表 把 它们 链 
接 在 一 起 ， 传 输 给 设备 的 不 是 缓冲 区 的 地 址 ， 而 是 链表 的 地 址 。 设 备 硬件 根据 链表 来 执行 ， 无 需 等 竺 
CPU 重新 启动 操作 。 例 如 ， 考 虑 一 个 使 用 DMA 硬件 作为 输入 的 网 络 接口 。 为 了 从 网 络 接收 数据 包 ， 操 
作 系 统 分 配 一 个 缓冲 区 链表 ， 每 一 个 缓冲 区 可 以 容纳 一 个 网 络 数据 包 ， 通 过 链表 中 的 地 址 访问 网 络 接 
口 设备 。 当 一 个 包 到 达 时 ， 网 络 设备 移动 到 链表 上 的 下 一 个 缓冲 区 ,使 用 DMA 将 数据 包 复 制 到 缓冲 
区 ， 然 后 产生 中 断 。 只 要 链表 中 还 有 缓冲 区 ， 设 备 就 将 继续 接收 传人 的 数据 包 ， 并 将 数据 包 放 置 在 组 
冲 区 中 。 

如 果 一 个 DMA 设备 达到 缓冲 区 链表 的 末尾 ， 那 么 将 会 发 生 什么 ” 有 趣 的 是 ， 大 多 数 DMA 设备 从 
未 到 达 链 表 的 末尾 ， 因 为 硬件 使 用 循环 链表 ， 称 为 一 个 缓冲 环 。 也 就 是 说 ,链表 上 的 最 后 一 个 结 点 指 
向 第 一 个 结 点 。 链 表 中 的 每 个 结 点 包含 两 个 值 : 指向 缓冲 区 的 指针 和 状态 位 ， 状 态 位 表示 缓冲 区 是 否 
可 用 。 在 输入 时 ， 操 作 系统 初 始 化 链表 每 个 结 点 所 指向 的 缓冲 区 ， 并 设置 状态 位 为 EMPTY。 当 缓冲 区 
满 以 后 ，DMA 硬件 将 状态 位 设置 为 FULL， 并 产生 中 断 。 设 备 驱 动 处 理 中 断 ， 从 所 有 满 的 缓冲 区 中 提 
取 数 据 ， 清 除 状态 位 并 标记 缓冲 区 为 EMPTY。 一 方面 ， 如 果 操 作 系统 速度 足够 快 ， 那 么 它 能 够 及 时 处 
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理 传人 的 每 个 数据 包 并 在 下 一 个 包 到 达 之 前 将 缓冲 区 标记 为 EMPTY。 这 样 ，DMA 硬件 将 继续 围绕 环 
移动 而 不 会 遇 到 一 个 标记 为 FULL 的 缓冲 区 。 另 一 方面 ， 如 果 操 作 系统 无 法 快速 处 理 到 达 的 数据 包 ， 
那么 设备 所 有 的 缓冲 区 最 终 将 被 填 满 ， 并 会 遇 到 一 个 标记 为 FULL 的 缓冲 区 。 如 果 遍 历 整个 环 ， 缓 冲 
区 全 被 填 满 ，DMA 将 设置 一 个 错误 标示 (通常 是 溢出 位 )， 并 产生 中 断 来 通知 操作 系统 。 

大 多 数 DMA 的 输出 缓冲 区 也 采用 循环 链表 。 操 作 系统 创建 一 个 环 ， 其 中 每 个 缓冲 区 标志 位 为 
EMPTY。 当 有 数据 包 要 发 送 时 ， 操 作 系统 把 数据 包 放 在 下 一 个 可 用 的 输出 缓冲 区 中 ， 然 后 标志 该 缓冲 
区 为 FULL， 如 果 设备 当前 没有 运行 就 启动 设备 。 设 备 移动 到 下 一 个 缓冲 区 ， 提 取 数 据 包 ， 并 发 送 数据 
包 。 一 旦 启动 DMA ， 环 指针 将 持续 移动 ， 直 到 它 到 达 环 上 的 一 个 空 缓冲 区 。 因 此 ， 如 果 应 用 程序 生成 
数据 的 速度 足够 快 ， 那 么 DMA 硬件 将 不 断 地 传输 数据 包 而 不 会 出 现 空 的 缓冲 区 。 


16.4 使 用 DMA 的 以 太 网 驱动 例子 

接 下 来 用 例子 来 阐明 上 述 的 讨论 。 我 们 的 驱动 例子 是 为 Atheros AG71xx 以 太 网 接口 ?编写 的 。 虽 
然 很 多 细节 是 针对 Atheros 的 设备 ， 但 是 处 理 器 和 设备 之 间 的 相互 作用 对 于 大 多 数 DMA 设备 是 相 
同 的 。 

AG71xx 可 以 执行 输入 和 输出 ， 处 理 芯片 为 输入 和 输出 提供 了 不 同 的 DMA 引 警 。 也 就 是 说 ， 一 个 
驱动 必须 创建 两 个 环 一 一 一 个 环 用 来 指向 接收 数据 包 的 缓冲 区 ， 另 一 个 环 指向 用 于 发 送 数据 包 的 缓冲 
区 。 设 备 具 有 独立 的 寄存 器 用 于 向 环 传递 指针 ， 这 样 设 备 可 以 同时 处 理 输入 和 输出 。 尽 管 操作 是 独立 
的 ， 但 是 输入 和 输出 中 断 使 用 一 个 中 断 向 量 。 因 此 ， 当 中 断 发 生 时 ， 设 备 驱动 软件 必须 与 设备 进行 交 
互 ， 以 确定 中 断 对 应 的 是 输入 还 是 输出 操作 。 


16.5 设备 的 硬件 定义 和 常量 


文件 ag71xx. h 为 AG71xx 硬件 定义 常量 和 结构 。 该 文件 包含 了 许多 细节 ， 有 些 部 分 可 能 有 点 难以 
理解 。 这 里 的 定义 是 直接 由 供应 商 的 设备 手册 提供 的 。 


/* ag71xx.h - Definitions for an Atheros ag71xx Ethernet device af 





/* Ring buffer sizes */ 


#define ETH RX RING ENTRIES 64 /* Number of buffers on Rx Ring */ 
#define ETH TX RING ENTRIES 128 /* Number of buffers on Tx Ring */ 


#define ETH PKT RESERVE 64 


/* Control and Status register layout for the ag71xx  */ 


struct ag71xx { 


volatile uint32 macConfigl; /* 0x000 MAC configuration 1 € 
#define MAC_CFG1_TX (1 << 0) /* Enable Transmitter wf 
#define MAC_CFG1_SYNC_TX (1 << 1) /* Syncronize Transmitter */ 
#define MAC_CFG1_RX (1 << 2) /* Enable Receiver RJ 
#define MAC_CFG1_SYNC_RX (Dee 3) /* Syncronize Receiver */ 
#define MAC CFG] LOOPBACK (1 << 8) /* Enable Loopback ad 
#define MAC_CFG1_SOFTRESET (1 << 31) /* Software Reset Ej 

volatile uint32 macConfig2; /* 0x004 MAC configuration 2 È, 
#define MAC CFG2 FDX (1 << 0) /* Enable Full Duplex */ 
#define MAC CFG2 CRC ee 1) /* Enable CRC appending Ey 
#define MAC CFG2 PAD (1 << 2) /* Enable padding of short pkts */ 
#define MAC_CFG2_LEN CHECK (1 << 4) /* Enable length field checking */ 
#define MAC_CFG2_HUGE (1 << 5) /* Enable frames longer than max*/ 








O 指 处 的 xx 指 的 是 拥有 API 的 一 系列 产品 。 


#define MAC_CFG2_IMNIBBLE (1 
#define MAC_CFG2_IMBYTE (2 


volatile uint32 pad00[2]; 
volatile uint32 pad01[4]; 
volatile uint32 pad02[4]; 
volatile uint32 pad03[4]; 


volatile uint32 macAddr1; 
volatile uint32 macAddr2; 


<< 
<< 


volatile uint32 fifoConfig0; 


8) 
8) 
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/* "nibble mode" interface type */ 


/* "byte mode" interface type ef 
/* 0x040 MAC Address part 1 +7 
/* 0x044 MAC Address part 2 ey 
/* 0x048 MAC configuration 0 wy 


#define FIFO CFGO WTMENREQ (1 << 8) 
#define FIFO_CFGO_SRFENREQ (1 << 9) 
#define FIFO CFGO FRFENREQ (1 << 10) 
#define FIFO CFGO0 STFENREQ (1 << 11) 


#define FIFO_CFGO_FTFENREQ (1 << 12) 
volatile uint32 fifoConfigl; 
volatile uint32 fifoConfig2; 
volatile uint32 fifoConfig3; 
volatile uint32 fifoConfig4; 
volatile uint32 fifoConfig5; 
volatile uint32 pad06[72]; 
volatile uint32 txControl; 

#define TX CTRL ENABLE (1 << 0) 
volatile uint32 txDMA; 


volatile uint32 txStatus; 


#define TX_STAT_SENT (m 0) 
#define TX_STAT_UNDER ee 1) 


volatile uint32 rxControl; 
#define RX CTRL RXE (1 << 0) 


volatile uint32 rxDMA; 
volatile uint32 rxStatus; 


#define RX_STAT_RECVD (1 << 0) 
#define RX_STAT_OVERFLOW (1. << 2) 
#define RX_STAT_COUNT (OxFF << 16) 


volatile uint32 interruptMask; 


#define IRQ TX PKTSENT (1 << 0) 
#define IRQ_TX_UNDERFLOW (1 << 1) 
#define IRQ TX BUSERR (1<< 3) 
#define IRQ RX PKTRECV (1 << 4) 
#define IRQ RX OVERFLOW (1 << 6) 
#define IRQ RX BUSERR (1 << 7) 


volatile uint32 interruptStatus; 
3; 


/* Enable FIFO watermark module */ 
/* Enable FIFO system Rx module */ 
/* Enable FIFO fabric Rx module */ 
/* Enable FIFO system Tx module */ 
/* Enable FIFO fabric Tx module */ 
/* 0x04C MAC configuration 1 E 
/* 0x050 MAC configuration 2 v 
/* 0x054 MAC configuration 3 ua 
/* 0x058 MAC configuration 4 = 
/* 0x05C MAC configuration 5 */ 
/* 0x180 Tx Control wy 
/* Enable Tx vy 
/* 0x184 Tx DMA Descriptor +y 
/* 0x188 Tx Status uli 
/* Packet Sent sa 
/* Tx Underrun */ 
/* 0x18C Rx Control my 
/* Enable receiver */ 
/* 0x190 Rx DMA Descriptor */ 
/* 0x194 Rx Status */ 
/* Packet Received iat A 
/* DMA Rx overflow */ 
/* Count of packets received ir 
/* 0x198 Interrupt Mask y 
/* Packet Sent ey 
/* Tx packet underflow */ 
/* Tx Bus Error */ 
/* Rx Packet received */ 
/* Rx Overflow ip 
/* Rx Bus Error */ 
/* 0x19C Interrupt Status hy 
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/* Receiver header struct and constants */ 


#define ETH_RX_FLAG_OFIFO 0x0001 /* FIFO Overflow ES 
#define ETH_RX_FLAG_CRCERR 0x0002 /* CRC Error xy 
#define ETH RX FLAG SERR 0x0004 /* Receive Symbol Error */ 
#define ETH RX FLAG ODD 0x0008 /* Frame has odd number nibbles */ 
#define ETH RX FLAG LARGE 0x0010 /* Frame is » RX MAX Length */ 
#define ETH RX FLAG MCAST 0x0020 /* Dest is Multicast Address wf 
#define ETH RX FLAG BCAST 0x0040 /* Dest is Broadcast Address Fy 
#define ETH_RX_FLAG_MISS 0x0080 /* Received due to promisc mode */ 
#define ETH_RX_FLAG_LAST 0x0800 /* Last buffer in frame xy 


#define ETH_RX_FLAG_ERRORS ( ETH_RX_FLAG_ODD | ETH_RX_FLAG_SERR | \ 
ETH RX FLAG CRCERR | ETH RX FLAG OFIFO ) 


/* Header on a received packet */ 


struct rxHeader ( 


uint16 length; /* Length of packet data y 
uint16 flags; /* Receive flags x 
uint16 pad[12]; /* Padding Li 


by 


/* Ethernet DMA descriptor */ 


#define ETH DESC CTRL LEN  0x00001fff /* Mask for length field #/ 
#define ETH DESC CTRL MORE 0x10000000 /* More fragments bai 
#define ETH DESC CTRL EMPTY 0x80000000 /* Empty descriptor *y 


/* Descriptor for the DMA engine to determine where to */ 
ys find a packet buffer. xy 


struct dmaDescriptor { 


uint32 address; /* Stored as physical address my 
uint32 control; /* DMA control bits wy 
uint32 next; /* Next descriptor in the ring */ 
ys 
#define RESET CORE 0xB806001C /* Atheros bus core reset reg *7 
#define RESET EO MAC (1 << 9) /* Reset Ethernet zero MAC d 
#define RESET E1 MAC (1 << 13) /* Reset Ethernet one MAC ata 


结构 ag71xx 规定 AG71xx 硬件 的 控制 和 状态 寄存 器 的 格式 。 代 码 中 的 有 些 变量 标记 为 volatile 属性 ， 

306| ”该 属性 是 用 来 告知 编译 器 使 用 这 些 引用 时 需要 逐一 进行 取 地 址 操作 。( 即 ， 编 译 器 不 能 进行 下 面 这 样 的 

308| ”优化 : 取 地 址 ， 将 其 存 人 寄存 器 ， 下 次 需要 使 用 的 时 候 不 进行 取 地 址 操作 ， 而 直接 从 寄存 器 中 将 该 值 
取出 。 


16.6 环 和 内 存 缓冲 区 


从 设备 的 角度 看 ， 输 入 或 输出 环 由 内 存 中 的 链表 组 成 。 链 表 上 的 每 个 结 点 使 用 结构 dmaDescriptor 
定义 ， 该 结构 包含 3 项: 1) 一 个 指向 内 存 缓冲 区 的 指针 ; 2) 一 个 状态 字 ， 用 来 告诉 缓冲 区 是 否 包含 
数据 ; 3) 链表 上 指向 下 一 个 结 点 的 指针 。 图 16-1 说 明了 发 送 和 接收 环 是 如 何 组 织 的 ， 以 及 环 上 的 每 
个 结 点 如 何 包 含 缓冲 区 的 指针 。 

正如 图 16-1 所 示 ， 每 个 环 由 一 个 循环 链表 组 成 ， 指 针 从 一 个 结 点 指向 它 的 后 继 结 点 (最 后 一 个 结 
点 指向 第 一 个 结 点 ) 。 阅 读 代码 时 ， 有 一 点 要 记 住 ， 以 太 网 设备 视 环 为 一 个 链表 〈 即 遵循 指针 设备 在 
一 个 结 点 可 以 得 到 指向 下 一 个 结 点 的 指针 ) 。 驱 动 将 环 结 点 存放 在 连续 的 存储 空间 里 〈 例 如， 链表 的 
结 点 分 配 在 数组 中 )。 因 此 ， 了 驱动 可 以 使 用 数组 索引 访问 结 点 。 图 16-2 显示 了 结 点 的 结构 ， 并 说 明 环 
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的 结 点 如 何 存储 在 数组 中 。 
发 送 环 接收 环 
| lanx | ETT 
“yr di D: N 
发 送 缓冲 区 接收 缓冲 区 
图 16-1 示例 DMA 设备 的 发 送 /接收 环 说 明 









































缓冲 区 1 




















指向 下 一 个 结 点 的 指针 缓冲 区 2 
状态 
指向 缓冲 区 的 指针 Win: 
BWEN 
a) 接收 或 者 发 送 环 上 一 个 结 点 的 内 容 b) 存储 在 数组 中 的 一 个 环 
图 16-2 


16.7 ”以太 网 控制 块 的 定义 
文件 ether. h 定义 了 以 太 网 驱动 使 用 的 常量 和 数据 结构 ， 包 括 以 太 网 数据 包头 格式 、 数 据 包 缓冲 区 
在 内 存 中 的 布局 ， 以 太 网 控制 块 的 内 容 。 


/* ether.h */ 
/* Ethernet packet format: 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


| Dest. MAC (6) | Src. MAC (6) |Type (2) | Data (46-1500)... 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
Xf 

#define ETH ADDR LEN 6 /* Length of Ethernet (MAC) address vd 


/* Ethernet packet header */ 
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struct etherPkt ( 


byte dst[ETH ADDR LEN]; /* Destination Mac address wy 
byte src[ETH ADDR LEN]; /* Source Mac address iat’ 
uint16 type; /* Ether type field */ 
byte data[1]; /* Packet payload Ey 
di 
#define ETH_HDR_LEN 14 /* Length of Ethernet packet header wf 


/* Ethernet Buffer lengths */ 
#define ETH_IBUFSIZ 1024 /* input buffer size ey 


/* Ethernet DMA buffer sizes */ 


#define ETH_MTU 1500 /* Maximum transmission unit wg 
#define ETH VLAN LEN 4 /* Length of Ethernet vlan tag S 
#define ETH_CRC_LEN 4 /* Length of CRC on Ethernet frame ef 


#define ETH_MAX_PKT_LEN ( ETH HDR LEN + ETH VLAN LEN + ETH MTU ) 


#define ETH RX BUF SIZE ( ETH MAX PKT LEN + ETH CRC LEN \ 
* sizeof(struct rxHeader) ) 


#define ETH TX BUF SIZE ( ETH MAX PKT LEN ) 


/* State of the Ethernet interface */ 


#define ETH STATE FREE 0 /* control block is unused */ 
#define ETH STATE DOWN 1 /* interface is currently inactive */ 
#define ETH STATE UP 2 /* interface is currently active */ 


/* Ethernet device control functions */ 


#define ETH CTRL CLEAR STATS 1 /* Reset Ethernet Statistics wf 
#define ETH CTRL SET MAC 2 /* Set the MAC for this device */ 
#define ETH_CTRL_GET_MAC 3 /* Get the MAC for this device *g 
#define ETH CTRL SET LOOPBK 4 /* Set Loopback Mode ^ d 
#define ETH CTRL RESET 5 /* Reset the Ethernet device #7 
#define ETH_CTRL_DISABLE 6 /* Disable the Ethernet device be 
/* Ethernet packet buffer */ 
struct ethPktBuffer { 
byte *buf; /* Pointer to a packet buffer xy 
byte *data; /* Start of data within the buffer uw i 
int32 length; /* Length of data in the packet buffer */ 
); 
/* Ethernet control block */ 
#define ETH INVALID (-1) /* Invalid data (virtual devices) ey 


struct ether t 
byte state; /* ETH STATE ... as defined above */ 
struct dentry  *phy; /* physical ethernet device for Tx DMA */ 


/* Pointers to associated structures */ 
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struct dentry  *dev; /* address in device switch table x f 
void *osr; /* addr.of control and status regs. ud 
uint32 interruptMask; /* interrupt mask */ 
uint32  interruptStatus;/* interrupt status */ 


struct dmaDescriptor *rxRing;/* array of receive ring descrip. */ 


struct ethPktBuffer **rxBufs;/* Rx ring array -pd 
uint32  rxHead; /* Index of current head of Rx ring ui 
uint32 rxTail; /* Index of current tail of Rx ring my 
uint32 rxRingSize; /* size of Rx ring descriptor array ay 
uint32 rxirg; /* Count of Rx interrupt requests */ 
uint32  rxOffset; /* Size in bytes of rxHeader XJ 
uint32 rxErrors; /* Count of Rx errors x7 


struct dmaDescriptor *txRing;/* array of transmit ring descrip.*/ 


struct ethPktBuffer **txBufs;/* Tx ring array *J 
uint32  txHead; /* Index of current head of Tx ring * f 
uint32 txTail; /* Index of current tail of Tx ring */ 
uint32 txRingSize; /* size of Tx ring descriptor array È. 
uint32 txirq; /* Count of Tx interrupt requests €, 


byte devAddress[ETH ADDR LEN]; /* MAC address */ 


byte addressLength;  /* Hardware address length »J 
uintl6 mtu; /* Maximum transmission unit (payload) */ 
uint32 errors; /* Number of Ethernet errors */ 
uint16 ovrrun; /* Buffer overruns ef 
sid32 isema; /* I/0 semaphore for Ethernet input */ 
uintl6 istart; /* Index of packet in the input buffer */ 
uintl6  icount; /* Count of packets in the input buffer */ 
struct ethPktBuffer *in[ETH IBUFSIZ]; /* Input buffer a 
int inPool; /* Buffer pool ID for input buffers #/ 
int outPool; /* Buffer pool ID for output buffers ard 

}; 

extern struct ether ethertab[]; /* array of control blocks */ 


int32 colon2mac(char *, byte *); 
int32 allocRxBuffer(struct ether *, int32); 
int32 waitOnBit(volatile uint32 *, uint32, const int32, int32); 





.8 设备 和 驱动 初始 化 
当 系统 启动 时 ， 操 作 系统 会 首先 调用 ethInit 函数 来 初始 化 以 太 网 设备 以 及 相应 设备 驱动 的 数据 结 











文件 ethInit. c 包含 如 下 代码: 


/* ethInit.c - ethInit */ 
#include <xinu.h> 


struct ether ethertab [Neth]; /* Ethernet control blocks */ 
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void udelay(uint32 n) { 


uint32 delay; /* amount to delay measured in */ 
ya clock cycles A 
uint32 start = 0; /* clock at start of delay si 
uint32 target = 0; /* computed clk at end of delay */ 
uint32 -count = 0; /* current clock during loop */ 
delay - 200 * n; /* 200 CPU cycles per usec */ 
start - clkcount(); /* Get current clock */ 
target = start + delay; /* Compute finish time */ 


if (target »- start) ( 
while (((count = clkcount()) < target) && 
(count >= start)) ( 
; /* spin doing nothing */ 


) else ( 
/* need to wrap around counter */ 
while ((count - clkcount()) » start) ( 
: /* spin doing nothing */ 
) 


while ((count = clkcount()) < target) { 
; /* spin doing nothing */ 


sf 
void mdelay (uint32 n) { 
int i; 
for (i= 0; i« n; i++) ( 
udelay(1000); 
} 
} 
/* PE a a a a 


XY 
devcall ethInit ( 
struct dentry *devptr 
) 


struct ether *ethptr; 
struct ag7lx *nicptr; 
uint32 *rstptr; 
uint32 rstbit; 


/* Initialize structure pointers */ 


ethptr = &ethertab[devptr->dvminor] ; 
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memset (ethptr, 'N0', sizeof(struct ether)); 
ethptr->dev = devptr; 
ethptr->csr = devptr-»dvcsr; 


/* Get device CSR address */ 


nicptr = (struct ag71xx *)devptr-»dvcsr; 

rstptr = (uint32 *)RESET_CORE; 

if (devptr->dvminor == 0) { /* use EO on first device only */ 
rstbit = RESET EO MAC; 

) else ( 


rstbit = RESET E1 MAC; 


ethptr->state = ETH STATE DOWN; 
ethptr-»rxRingSize ETH RX RING ENTRIES; 
ethptr->txRingSize = ETH TX RING ENTRIES; 
ethptr-»mtu - ETH MTU; 
ethptr->interruptMask = IRQ TX PKTSENT | IRQ TX BUSERR 
| IRQ_RX_PKTRECV | IRQ RX OVERFLOW | IRQ RX BUSERR; 
ethptr->errors = 0; 
ethptr->isema = semcreate(0); 
ethptr->istart = 0; 
ethptr->icount 


I 
ce 


ethptr->ovrrun = 0; 
ethptr->rxOffset = ETH PKT RESERVE; 


colon2mac (nvramGet ("etOmacaddr"), ethptr->devAddress) ; 
ethptr->addressLength = ETH_ADDR_LEN; 


/* Reset the device */ 


nicptr->macConfigl |= MAC_CFG1_SOFTRESET; 


udelay (20); 
*rstptr |» rstbit; 
mdelay (100); 
*rstptr &- ~rstbit; 
mdelay (100); 


/* Enable transmit and receive */ 


nicptr->macConfigl = MAC CFG1 TX | MAC CFGl SYNC TX | 
MAC CFGl RX | MAC CFG1 SYNC RX; 


/* Configure full duplex, auto padding CRC, */ 
y* and interface mode vy 


nicptr-»macConfig2 |- MAC CFG2 FDX | MAC CFG2 PAD | 
MAC CFG2 LEN CHECK | MAC CFG2 IMNIBBLE; 


/* Enable FIFO modules */ 


nicptr->fifoConfig0 = FIFO CFG0 WTMENREQ | FIFO_CFGO_SRFENREQ | 
FIFO CFG0 FRFENREQ | FIFO_CFGO_STFENREQ | FIFO CFG0 FTFENREQ; 


nicptr->fifoConfigl = 0x0FFF0000; 


/* Max out number of words to store in Receiver RAM */ 
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nicptr->fifoConfig2 = 0x00001FFF; 
/* Drop any incoming packet with errors in the Rx stats vector */ 


nicptr->fifoConfig4 = 0x0003FFFF; 


/* Drop short packets (set "don't care" on Rx stats vector bits */ 
nicptr->fifoConfig5 = 0x0003FFFF; 


/* Buffers should be page-aligned and cache-aligned */ 


ethptr->rxBufs = (struct ethPktBuffer **)getstk(PAGE SIZE); 
ethptr->txBufs = (struct ethPktBuffer **)getstk(PAGE SIZE); 
ethptr->rxRing = (struct dmaDescriptor *)getstk(PAGE_SIZE); 
ethptr->txRing = (struct dmaDescriptor *)getstk(PAGE_SIZE); 
if ( (int32)ethptr->rxBufs == SYSERR ) 
| ( (int32)ethptr->txBufs == SYSERR ) 
| ( (int32)ethptr->rxRing == SYSERR ) 
| ( (int32)ethptr->txRing == SYSERR ) ) { 
return SYSERR; 


( 
| 
| 
| 


/* Translate buffer and ring pointers to KSEG1 */ 


ethptr->rxBufs = (struct ethPktBuffer **) 
(((uint32)ethptr->rxBufs - PAGE SIZE + 
sizeof(int32)) | KSEG1 BASE); 
ethptr->txBufs = (struct ethPktBuffer **) 
(((uint32)ethptr->txBufs - PAGE SIZE + 
sizeof(int32)) | KSEG1 BASE); 
ethptr-»rxRing - (struct dmaDescriptor *) 
(((uint32)ethptr->rxRing - PAGE SIZE + 
Sizeof(int32)) | KSEG1 BASE); 
ethptr->txRing = (struct dmaDescriptor *) 
(((uint32)ethptr->txRing - PAGE_SIZE 
sizeof(int32)) | KSEG1 BASE); 


+ 


/* Set buffer pointers and rings to zero */ 


memset (ethptr->rxBufs, 'X0', PAGE SIZE); 
memset (ethptr->txBufs, 'X0', PAGE SIZE); 
memset (ethptr->rxRing, ‘\0’, PAGE SIZE); 
memset (ethptr->txRing, ’\0’, PAGE SIZE); 


/* Initialize the interrupt vector and enable the device */ 


interruptVector [devptr->dvirg] = devptr->dvintr; 
enable irq(devptr-»dvirq); 
return OK; 


) 

硬件 在 各 个 初始 化 步骤 中 需要 特定 的 延迟 〈 使 设备 中 的 硬件 有 充足 的 时 间 进 行 初始 化 操作 ) o 18 
是 ， 当 执行 这 些 初 始 化 代码 时 ， 操 作 系统 并 没有 在 和 运行， 一 些 如 sleep 的 延迟 函数 还 不 能 让 用 户 调用 。 
因此 ， 代 码 中 自 定 义 了 两 个 延迟 函数 udelay 和 mdelay， 分 别 延迟 指定 的 微 秒 数 和 毫秒 数 。 在 每 种 情况 
下 ， 代 码 由 一 个 使 CPU 被 占 指定 时 间 的 循环 组 成 。 由 于 因为 循环 迭 代 的 次 数 取决 于 cpu 的 时 钟 速度 ， 
所 以 这 两 个 函数 都 是 平台 相关 的 。 更 重要 的 是 ， 一 个 相同 类 型 硬件 的 时 钟 周期 可 能 与 另 一 个 的 时 钟 周 
期 稍微 不 一 致 。 为 了 协调 这 种 差异 ， 通 过 使 用 实时 性 时 钟 来 实现 延迟 调整 ， 即 实现 一 个 delay 函数 读 取 
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当前 时 钟 ， 估 计 循 环 需要 执行 多 少 次 并 运行 该 循环 。 然 后 它 重 新 读 取 时 钟 来 决定 是 否 还 需要 额外 的 
延迟 。 

当 被 调用 时 ，ethInit 函数 初始 化 设备 控制 块 中 的 属性 ， 并 初始 化 硬件 。 这 里 的 许多 细节 依赖 于 具 
体 的 以 太 网 网 络 设备 ， 但 有 一 个 选项 对 于 DMA 硬件 设备 来 说 总 是 一 致 的 : 寻 址 方式 。 对 于 E2100L 来 
说 ，DMA 硬件 设备 直接 使 用 底层 的 总 线 ， 即 这 个 硬件 设备 使 用 的 是 物理 地 址 而 不 是 操作 系统 使 用 的 段 
地 址 。 因 此 ， 当 操作 系统 把 一 个 地 址 传 给 设备 时 ， 它 必须 先 把 所 有 的 地 址 转化 成 物理 地 址 。 尤 其 是 ， 
物理 地 址 必须 存放 在 缓冲 环 中 并 且 传 给 物理 设备 的 缓冲 环 地 址 必须 是 物理 地 址 。 在 代码 中 ， 段 地 址 到 
物理 地 址 的 转化 是 由 一 个 内 联 函 数 来 完成 的 ， 它 用 常量 KSEGI_BASE 与 一 个 地 址 进行 逻辑 或 运算 来 获 
得 虽然 转换 的 细节 随 着 具体 的 平台 有 所 不 同 ( 可 能 需要 操作 系统 使 用 MMU 硬件 设备 ) ， 但 基本 原理 是 
一 样 的 : 当 在 DMA 中 使 用 链表 时 ， 每 个 地 址 都 必须 转换 为 一 种 硬件 可 以 理解 的 形式 。 

最 后 一 步 ，ethInit 启动 设备 中 断 ( 即 ， 人 允许 设备 开始 接收 和 存储 数据 包 ， 并 产生 中 断 )。 启 动 使 设 
备 中 断 并 不 意味 着 中 断 会 出 现 : 在 初始 化 过 程 中 ， 操 作 系 统 运行 在 所 有 CPU 中 断 都 关闭 的 情形 下 。 因 
此 ， 设 备 能 请 求 一 个 中 断 ， 但 CPU 并 不 处 理 中 断 。 一 旦 操作 系统 启动 CPU 中 断 ， 设 备 就 能 够 中 断 CPU 
并 把 以 前 一 些 积累 的 数据 包 传 给 CPU。 


16.9 分 配 输入 缓冲 区 

在 读 取 数 据 包 之 前 ， 驱 动 必须 分 配 一 个 缓冲 区 来 存储 数据 包 ， 并 把 缓冲 区 链接 到 环 中 以 供 DMA 输 
Ao 我们 的 驱动 使 用 一 个 工具 函数 allocRxBuffer 从 缓冲 区 池 中 分 配 一 个 缓冲 区 ， 并 把 缓冲 区 地 址 链接 
到 DMA 环 中 。 文 件 allocRxBuffer. c 如 下 所 示 。 

/* allocRxBuffer.c - allocRxBuffer */ 


#include <xinu.h> 


*/ 

int32 allocRxBuffer ( 
struct ether *ethptr, /* ptr to device control block */ 
int32 destIndex /* index in receive ring */ 


) 


struct ethPktBuffer *pkt; 
struct dmaDescriptor *dmaptr; 


/* Compute next ring location modulo the ring size */ 
destIndex $- ethptr-»rxRingSize; 
/* Allocate a packet buffer */ 
pkt = (struct ethPktBuffer *)getbuf(ethptr->inPool); 
if ((uint32)pkt == SYSERR) ( 
kprintf("eth0 allocRxBuffer() error\r\n"); 
return SYSERR; 
} 
pkt->length = ETH_RX_BUF_SIZE; 
pkt->buf = (byte *)(pkt + 1); 


/* Data region offset by size of rx header */ 


pkt->data = pkt->buf + ethptr-»rxOffset; 
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ethptr-»rxBufs[destIndex] = pkt; 
/* Fill in DMA descriptor fields */ 


dmaptr = ethptr->rxRing + destIndex; 
dmaptr-»control = ETH DESC CTRL EMPTY; 
dmaptr->address = (uint32) (pkt->buf) & PMEM MASK; 


return OK; 

} 

在 我 们 的 DMA 描述 中 ， 环 中 的 每 个 结 点 都 包括 一 个 位 ， 以 告诉 我 们 缓冲 区 是 满 的 还 是 空 的 。 
AG71xx 硬件 使 用 DMA 描述 结构 体 (struct dmaDescriptor) 中 的 control 字段 中 的 一 位 作为 标示 位 ， 其 常 
量 名 为 ETH_DESC_CTRL_EMPTY ， 当 缓冲 区 为 空 时 ， 值 为 1、 当 缓冲 区 包含 数据 包 时 ， 该 位 为 0。 

因此 ， 当 系统 分 配 一 个 缓冲 区 并 把 缓冲 区 链接 到 环 中 之 后 ，allocRxBuffer 必须 将 ETH_DESC_CTRL 
EMPTY 位 设置 为 1 来 指明 缓冲 区 是 空 的 ; 当 有 数据 包 到 达 并 放 入 缓冲 区 之 后 ,设备 硬件 就 把 该 位 设 
置 为 0。AllocRxBuffer 接收 两 个 参数 : 指向 以 太 网 控制 块 的 指针 和 缓冲 环 中 目前 使 用 的 缓冲 区 的 位 置 。 
当 系 统 分 配 一 个 缓冲 区 之 后 ，allocRxBuffer 计算 该 缓冲 区 在 缓冲 环 中 的 位 置 ， 把 缓冲 区 的 地 址 放 人 数据 
包 的 头 部 ， 并 设置 DMA 描述 结构 体 中 的 control 字段 。 


16.10 ”从 以 太 网 设备 中 读 取 数据 包 

因为 DMA 引擎 使 用 输入 环 将 到 来 的 数据 包 存储 到 连续 的 缓冲 区 内 ， 而 且 读 取 数据 包 并 不 需要 与 设 
备 硬件 进行 交互 。 相 反 ， 驱 动 使 用 信号 量 机 制 来 调节 读 操 作 : 一 个 读数 据 包 的 应 用 程序 进程 等 在 信号 
量 上 ， 当 有 数据 包 到 达 时 ， 中 断代 码 释 放 信和 号 量 。 因 此 ， 如 果 当 前 没有 数据 包 需 要 处 理 ， 调 用 者 会 由 
于 得 不 到 信和 号 量 而 被 阻塞 。 当 缓冲 区 中 有 数据 包 时 ， 中 断 处理 程 序 会 发 信号 给 调用 者 ， 从 而 使 调用 者 
能 继续 执行 。 数 据 包 也 会 被 放 和 人 缓冲 环 中 的 下 一 个 缓冲 区 中 。 处 理 读 取 操作 的 驱动 只 需要 把 数据 包 从 
缓冲 环 复制 到 调用 者 的 缓冲 区 ， 然 后 返回 即 可 。 文 件 ethRead. c 代码 如 下 : 


/* ethRead.c - ethRead */ 


#include <xinu.h> 


žy 

devcall ethRead ( 
struct dentry  *devptr, /* entry in device switch table */ 
void *buf, /* buffer to hold packet ®/ 
uint32 len /* length of buffer ey 
) 

{ 
struct ether *ethptr; /* ptr to entry in ethertab y 
struct ethPktBuffer *pkt; /* ptr to a packet ef 
uint32 length; /* packet length */ 


ethptr = &ethertab[devptr-»dvminor]; 
if (ETH_STATE_UP != ethptr->state) { 
return SYSERR; /* interface is down */ 


} 


/* Make sure user's buffer is large enough to store at least Se 
Vi the header of a packet ay: 


if (len < ETH_HDR_LEN) { 


} 


在 验证 以 太 网 设备 已 经 就 绪 并 检查 了 它 的 参数 之 后 ，ethRead 等 待 输入 信和 号 量 ， 调 用 函数 
wait， 等 待 阻 塞 直到 以 太 网 设备 中 至 少 有 一 个 数据 包 。 一 旦 ethRead 函数 通过 wait 函数 ， 即 从 下 一 
个 可 用 的 缓冲 环 中 把 数据 包 复 制 到 调用 函数 的 缓冲 区 中 ， 然 后 返回 。 设 备 驱 动 控制 块 中 的 istart 字 
段 指定 了 要 使 用 的 缓冲 环 指 针 〈 注 意 : 虽然 设备 硬件 的 缓冲 环 是 用 链表 来 实现 的 ,但 驱动 仍然 使 
用 数组 方式 来 进行 索引 ) 。ethRead 通过 加 1 并 模 除 缓冲 环 大 小 把 istart 指向 下 一 个 要 使 用 的 环 中 的 
缓冲 区 。 
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return SYSERR; 
} 


/* Wait for a packet to arrive */ 
wait (ethptr->isema) ; 
/* Pick up packet */ 


pkt = ethptr->in[ethptr->istart]; 
ethptr->in[ethptr->istart] = NULL; 

ethptr->istart = (ethptr->istart + 1) % ETH_IBUFSIZ; 
ethptr->icount--; 


if (pkt == NULL) { 
return 0; 
} 


length = pkt->length; 
memcpy (buf, (byte *)(((uint32)pkt->buf) | KSEG1 BASE), length); 
freebuf ( (char *)pkt); 


return length; 


向 以 太 网 设备 中 写 入 数据 包 


使 用 DMA 来 进行 ， 使 输出 像 输 入 一 样 简单 。 应 用 程序 调用 write 来 发 送 数据 包 ， 其 中 write 函数 又 
调用 了 ethWrite 函数 。 与 输入 一 样 ， 输 出 端 只 与 缓冲 环 交 互 : ethWrite 函数 将 调用 者 的 缓冲 区 内 容 复制 


到 下 一 个 可 用 的 输出 缓冲 区 中 。 文 件 ethWrite. c 代码 如 下 : 


/* ethWrite.c - etherWrite */ 


#include <xinu.h> 


MÀ 


devcall ethWrite ( 


Struct dentry  *devptr, /* entry in device switch table */ 
void *buf, /* buffer to hold packet ali 
uint32 len /* length of buffer Ry 


struct ether *ethptr; 
struct ag7lxx *nicptr; 
struct ethPktBuffer *pkt; 
struct dmaDescriptor *dmaptr; 
uint32 tail - 0; 

byte *buffer; 
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buffer = buf; 


ethptr = &ethertab[devptr->dvminor] ; 
nicptr = ethptr->csr; 


if ((ETH_STATE UP != ethptr->state) 
|| (Len < ETH_HDR_LEN) 
|| (len > (ETH TX BUF SIZE - ETH VLAN LEN))) { 
return SYSERR; 


tail = ethptr->txTail % ETH TX RING ENTRIES; 
dmaptr = &ethptr->txRing[tail]; 


if (!(dmaptr-»control & ETH DESC CTRL EMPTY)) { 
ethptr->errors++; 
return SYSERR; 

} 


pkt = (struct ethPktBuffer *)getbuf(ethptr->outPool) ; 
if ((uint32)pkt == SYSERR) { 

ethptr->errors++; 

return SYSERR; 


/* Translate pkt pointer into uncached memory space */ 
pkt = (struct ethPktBuffer *)((int)pkt | KSEG1 BASE); 
pkt->buf = (byte *)(pkt + 1); 

pkt->data = pkt->buf; 


memcpy (pkt->data, buffer, len); 


/* Place filled buffer in outgoing queue */ 
ethptr-»txBufs[tail] = pkt; 


/* Add the buffer to the transmit ring. Note that the address  */ 
/* must be physical (USEG) because the DMA engine will used it */ 


ethptr->txRing[tail].address = (uint32)pkt->data & PMEM MASK; 
/* Clear empty flag and write the length */ 
ethptr->txRing[tail].control = len & ETH DESC CTRL LEN; 
/* move to next position */ 
ethptr->txTail++; 
if (nicptr->txStatus & TX_STAT_UNDER) { 
nicptr->txDMA = ((uint32) (ethptr->txRing + tail)) 
& PMEM MASK; 


nicptr->txStatus = TX_STAT_UNDER; 
} 


/* Enable transmit interrupts */ 


nicptr->txControl = TX CTRL ENABLE; 
return len; 


在 检验 参数 之 后 ，ethWrite 函数 等 待 输出 缓冲 环 中 一 个 空 的 位 置 ， 并 从 调用 者 缓冲 区 复制 一 个 数 
据 包 到 该 环 缓冲 区 上 。 如 果 设 备 目前 处 于 空闲 状态 ，ethWrite 就 必须 启动 该 设备 。 启 动 DMA 设备 非常 
简单 ， 只 需 将 常量 TX_CTRL_ENABLE 赋 给 设备 的 传输 控制 寄存 器 。 如 果 设 备 已 经 在 运行 ,那么 这 个 
赋值 将 不 产生 任何 效果 ; 否则 这 个 赋值 就 会 在 环 的 下 一 个 位 置 启动 该 设备 (驱动 将 把 下 一 个 数据 包 传 
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送 到 空 的 位 置 ) 。 
16.12 ”以 太 网 设备 的 中 断 处 理 


利用 DMA 设备 启动 的 优势 之 一 在 于 DMA 设备 上 的 引擎 能 处 理 很 多 细节 。 因 此 ， 中 断 处 理 没有 涉 
及 很 多 与 设备 的 互动 。 中 断 会 出 现在 输入 /输出 操作 成 功 完成 或 者 DMA 引擎 出 错时 。 中 断 处 理 程序 询 
问 设备 来 确认 中 断 的 原因 。 对 于 成 功 的 输入 中 断 ， 处 理 程序 调用 图 数 rxPackets ; 对 于 成 功 的 输出 中 断 ， 
处 理 程序 调用 函数 kPackets。 对 于 出 错 情 况 ， 处 理 程序 都 是 直接 解决 。 文 件 ethImterrupt c 的 代码 如 下 : 


/* ethInterrupt.c - ethInterrupt */ 


#include <xinu.h> 


rxPackets ( 
struct ether *ethptr, /* ptr to control block 
struct ag71xx *nicptr /* ptr to device CSRs 


) 


struct dmaDescriptor *dmaptr;  /* ptr to DMA descriptor 
struct ethPktBuffer  *pkt; /* ptr to one packet buffer 
int32 head; 


/* Move to next packet, wrapping around if needed */ 


head = ethptr->rxHead % ETH_RX_RING_ENTRIES; 

dmaptr = &ethptr->rxRing [head] ; 

if (dmaptr->control & ETH_DESC_CTRL_EMPTY) { 
nicptr->rxStatus = RX_STAT_RECVD; 
return; 


} 


pkt = ethptr->rxBufs [head] ; 
pkt->length = dmaptr-»control & ETH DESC CTRL LEN; 


if (ethptr->icount < ETH IBUFSIZ) ( 
allocRxBuffer(ethptr, head); 
ethptr->in[(ethptr->istart + ethptr->icount) $ 

ETH IBUFSIZ] = pkt; 

ethptr->icount++; 
signal (ethptr->isema) ; 

} else { 
ethptr->ovrrun++; 
memset (pkt->buf, 'N0', pkt->length); 

} 


ethptr->rxHead++; 


/* Clear the Rx interrupt */ 


"y 
d 
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*/ 


nicptr->rxStatus = RX_STAT_RECVD; 
return; 


txPackets ( 
struct ether *ethptr, /* ptr to control block 
struct ag71xx *nicptr /* ptr to device CSRs 


) 


struct  dmaDescriptor *dmaptr; 
struct ethPktBuffer **epb = NULL; 
struct ethPktBuffer *pkt = NULL; 
uint32 head; 


if (ethptr->txHead == ethptr->txTail) { 
nicptr->txStatus = TX_STAT_SENT; 
return; 


/* While packets remain to be transmitted */ 
while (ethptr->txHead != ethptr->txTail) { 
head = ethptr->txHead % ETH TX RING ENTRIES; 
dmaptr = &ethptr->txRing [head] ; 
if (!(dmaptr-»control & ETH DESC CTRL EMPTY)) { 
break; 


epb - &ethptr-»txBufs [head]; 
/* Clear the Tx interrupt */ 


nicptr->txStatus = TX STAT SENT; 


ethptr->txHead++; 


t 
ii 


pkt - *epb; 
if (NULL -- pkt) ( 
continue; 
) 
freebuf((void *)((bpid32)pkt & (PMEM MASK | KSEGO BASE))); 
*epb - NULL; 
} 
return; 


interrupt ethInterrupt (void) 


{ 


struct ether *ethptr; /* ptr to control block 
struct ag71xx  *nicptr; /* ptr to device CSRs 
uint32 status; 

uint32 mask; 


*/ 
y 
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/* Initialize structure pointers */ 


ethptr = &ethertab[0]; /* default physical Ethernet */ 
if (!ethptr) { 
return; 


) 

nicptr - ethptr-»csr; 

if (!nicptr) ( 
return; 


/* Obtain status bits from device */ 


mask = nicptr->interruptMask; 
status = nicptr->interruptStatus & mask; 


/* Record status in ether struct */ 
ethptr->interrupt Status = status; 


if (status == 0) { 
return; 


Sched cntl(DEFER START); 


if (status & IRQ TX PKTSENT) ( /* handle transmitter interrupt */ 
ethptr->txirg++; 
txPackets(ethptr, nicptr); 


if (status & IRQ RX PKTRECV) ( /* handle receiver interrupt */ 
ethptr->rxirg++; 
rxPackets(ethptr, nicptr) ; 


/* Handle errors (transmit or receive overflow) */ 


if (status & IRQ_RX_OVERFLOW) { 
/* Clear interrupt and restart processing */ 
nicptr->rxStatus = RX STAT OVERFLOW; 
nicptr->rxControl = RX_CTRL_RXE; 
ethptr->errors++; 


if ((status & IRQ TX UNDERFLOW) | | 
(status & IRQ TX BUSERR) || (status & IRQ RX BUSERR)) { 
panic("Catastrophic Ethernet error"); 

} 

Sched cntl(DEFER STOP); 

return; 


) 
注意 ， 除 非 硬件 失灵 ， 和 否则 不 会 出 现 发 送 下 溢 或 总 线 错 误 。 


16.13 ”以 太 网 控制 函数 


以 太 网 驱动 支持 3 个 控制 函数 : 调用 者 可 以 从 设备 中 提取 MAC 地 址 、 设 定 MAC 地 址 和 设 定 用 于 
测试 的 回环 模式 (loopback mode) 。 我 们 通常 认为 以 太 网 的 MAC 地 址 是 硬 连 线 到 设备 的 。 然 而 ， 在 最 
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低 水 平 下 ， 制 造 商 不 想 在 硬件 被 测试 前 分 配 永久 地 址 。Xinu 系统 是 按照 典型 的 小 型 做 人 式 系 统 设 计 
: MAC 地 址 不 是 烧 入 到 以 太 网 接口 芯片 中 ， 而 是 载 人 不易 丢失 的 RAM 中 。 当 系统 启动 时 ， 系 统 从 
中 提取 地 址 并 把 它 载 人 到 设备 中 。 
因为 基础 总 线 使 用 32 位 数据 传输 ， 所 以 设备 会 将 48 位 MAC 地 址 分 为 两 部 分 。 为 了 设 定 MAC 地 
址 ，ethControl 一 定 要 设置 两 个 值 。ethControl 先 提取 用 户 MAC 地 址 的 前 4 个 字 节 ， 将 每 个 字 节 转换 到 
32 位 整数 内 的 对 应 位 置 上 ， 再 将 结果 存储 到 设备 上 。 然 后 提取 MAC 地 址 的 最 后 两 个 字 节 ， 转 换 到 对 
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应 位 置 ， 并 将 结果 存储 到 设备 中 。 


从 设备 上 获得 MAC 地 址 与 存储 MAC 地 址 正好 相反 。ethControl 先 从 设备 上 获得 一 个 整数 值 ， 然 后 
对 每 个 字 节 进行 移 位 并 计算 其 掩 码 ， 并 存储 在 调用 者 特有 的 数组 中 。 一 旦 前 4 个 字 节 存储 后 ，ethCon- 


trol 就 读 取 第 二 个 整数 并 提取 最 后 两 个 字 节 。 文 件 ethControl. c 的 代码 如 下 : 


/* ethControl.c - ethControl */ 


#include <xinu.h> 


*/ 

devcall ethControl ( 
struct dentry  *devptr, /* entry in device switch table */ 
int32 func, /* control function vf 
int32 argl, /* argument 1, if needed */ 
int32 arg2 /* argument 2, if needed vy 
) 

{ 
struct ether *ethptr; /* ptr to control block *y 
struct ag7lxx  *nicptr; /* ptr to device CSRs wf 

byte *macptr; /* ptr to MAC address */ 

uint32 temp; /* temporary */ 


ethptr - &ethertab[devptr-»dvminor]; 
if (ethptr->csr == NULL) ( 
return SYSERR; 
} 
nicptr = ethptr->csr; 


switch (func) ( 
/* Program MAC address into card. */ 


case ETH CTRL SET MAC: 
macptr = (byte *)argl; 


temp - ((uint32)macptr[0]) «« 24; 
temp |- ((uint32)macptr[1]) «« 16; 
temp |- ((uint32)macptr[2]) «« 8; 
temp |- ((uint32)macptr[3]) «« 0; 
nicptr-»macAddr1 = temp; 


temp 0; 

temp ((uint32)macptr[4]) «« 24; 
temp |- ((uint32)macptr[5]) «« 16; 
nicptr-»macAddr2 - temp; 

break; 


wo 
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/* Get MAC address from card */ 


case ETH CTRL GET MAC: 
macptr = (byte *)argl; 


temp = nicptr-»macAddrl; 


macptr[0] = (temp >> 24) & Oxff; 
macptr[1] = (temp >> 16) & Oxff; 
macptr[2] = (temp >> 8) & Oxff; 
macptr[3] = (temp >> 0) & Oxff; 


temp = nicptr-»macAddr2; 
macptr[4] = (temp >> 24) & Oxff; 
macptr[5] = (temp >> 16) & Oxff; 
break; 


/* Set receiver mode */ 


case ETH CTRL SET LOOPBK: 
if (TRUE == (uint32)argl) { 
nicptr->macConfigl |= MAC_CFG1_LOOPBACK; 
} else { 
nicptr->macConfigl &= ~MAC_CFG1_LOOPBACK; 
} 
break; 
default: 
return SYSERR; 


} 
return OK; 
} 


16.14 观点 

DMA 设备 对 必须 编写 设备 驱动 的 程序 员 来 说 是 喜忧参半 。 一 方面 ，DMA 硬件 极为 复杂 ， 数 据 单 
(data sheet) 很 难 理解 ， 以 至 于 程序 员 会 觉得 它 星 涩 难 懂 。DMA 设备 与 含 几 个 简单 控制 器 和 状态 寄存 
器 的 设备 不 同 ， 它 需要 程序 员 在 存储 器 中 创造 复杂 的 数据 结构 ， 并 把 它们 的 地 址 传送 给 设备 。 此 外 ， 
程序 员 必 须 了 解 硬 件 何 时 且 如 何在 数据 结构 中 发 出 回复 位 ， 以 及 如 何 解 释 操 作 系统 发 出 的 请 求 。 另 一 
方面 ,一旦 程序 员 领悟 了 参考 资料 ， 随 之 产生 的 驱动 代码 比 非 DMA 设备 的 代码 更 加 精巧 。 


16.15 ”总结 

使 用 DMA 设备 可 以 在 设备 和 存储 器 之 间 移 动 任意 数据 块 ， 而 不 需要 使 用 CPU 来 获得 数据 中 的 每 
个 字 。DMA 设备 一 般 会 在 存储 器 中 使 用 缓冲 环 ， 缓 冲 环 内 的 每 个 结 点 都 指向 同一 个 缓冲 区 。 一 旦 驱动 
将 硬件 指向 环 内 的 一 个 结 点 ，DMA 设备 引擎 就 可 以 执行 操作 ， 并 自动 移 到 环 内 的 下 一 个 结 点 。 

DMA 设备 的 主要 优势 在 于 较 低 的 开销 : 设备 只 需要 每 块 中 断 一 次 ， 而 不 是 每 字 节 或 每 字 一 次 。 
DMA 设备 的 驱动 代码 比 传统 设备 的 代码 更 为 简单 ， 因 为 不 需要 执行 低级 操作 。 


练习 

16.1 驱动 代码 使 用 数组 指针 从 一 个 结 点 移 到 下 一 个 结 点 。 如 果 将 代码 改 为 使 用 链接 而 不 是 数组 指针 ， 那 
么 这 个 驱动 变 高 效 还 是 低 效 ? 

16.2 读 取 以 太 网 数据 包 并 找到 最 小 数据 包 大 小 。 在 100Mbps 下 ， 每 秒 将 有 多 少数 据 包 到 达 ? 

16.3 创建 一 个 尽 可 能 快 发 送 以 太 网 数据 包 的 测试 程序 。 每 秒 可 以 发 送 多 少 大 数据 包 ? 多 少 小 数据 包 ? 

16.4 现在 的 驱动 很 复杂 并 且 代 码 很 难 理解 。 重 写 代 码 ， 使 用 数组 描述 发 送 和 接收 环 。 苦 态 分 配 数据 包 绥 
冲 区 。 
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最 小 互联 网 协议 栈 


有 适 远 的 诱惑 都 是 骗 人 的 。 最 大 的 机 会 就 在 你 眼前 。 
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17.1 引言 


由 于 很 多 嵌入 式 系统 使 用 网 络 进 行 通信 ， 网 络 协议 软件 已 经 成 为 小 型 府 人 式 操 作 系 统 的 标准 部 分 。 
前 面 的 章节 描述 了 发 送 和 接收 数据 包 的 基本 以 太 网 设备 驱动 。 尽 管 以 太 网 设备 可 以 传输 数据 包 ， 但 仍 
需要 其 他 通信 和 软件 以 允许 应 用 程序 在 网 络 中 进行 通信 。 一 般 来 说 ， 大 部 分 系统 使 用 TCP/IP tit & 
(TCP/Internet Protocol Suite)。 这 些 协议 组 成 了 协议 栈 (protocol stack) 。 

完整 的 TCP/IP 栈 包 含 很 多 协议 ， 远 不 止 一 章 就 能 描述 清楚 。 因 此 ， 本 章 描述 的 是 其 最 小 实现 ， 能 
够 支持 远程 磁盘 和 远程 文件 系统 (这 些 内 容 将 在 后 面 的 章节 介绍 ) 。 这 里 仅 简 单 地 描述 ， 没 有 深入 探 
讨 协议 的 细节 。 读 者 可 以 参考 作者 编写 的 其 他 书籍 ， 以 了 解 协议 簇 及 其 完整 实现 。 


17.2 所 需 的 功能 

互联 网 协议 的 实现 允许 Xinu 系统 上 运行 的 进程 与 远程 计算 机 上 运行 的 应 用 程序 进行 通信 (包括 
PC, Mac 或 UNIX 系统， 如 Linux 或 Solaris) 。 它 可 以 识别 远程 计算 机 并 与 计算 机 交换 报 文 。 

Xinu 实现 的 协议 包括 : 

e IP 互联 网 协议 

e UDP 用 户 数据 报 文 协议 

e ARP 地 址 解析 协议 

e DHCP 动态 主机 配置 协议 

e ICMP 互联 网 控制 报 文 协议 

IP 互联 网 协议 (Internet Protocol) 定义 网 络 数据 包 的 格式 ， 数 据 包 称 为 数据 报 。 每 个 数据 报 
放 在 以 太 网 帧 的 数据 区 域内 。 互 联网 协议 还 定义 了 地 址 格式 。Xinu 的 实现 不 支持 IP 选项 ， 如 存储 
分 片 。 数 据 包 转发 采用 大 多 数 终端 系统 所 使 用 的 模式 : IP 软件 必须 知道 计算 机 的 全 地 址 、 局 域 网 
的 地 址 掩 码 和 一 个 黑 认 路 由 器 地 址 。 如 果 目 的 地 不 在 局 域 网 中 ,那么 数据 包 将 会 被 送 到 默认 路 由 
fit Lo 

UDP 用 户 数 据 报 协议 (User Datagram Protocol) 定义 了 一 组 16 位 的 端口 号 (port number), FEE 
系统 利用 这 些 端口 号 来 识别 特殊 的 应 用 程序 。 通 信 程 序 必 须 支 持 它们 将 要 使 用 的 端口 号 。 端 口号 允许 
没有 干扰 的 同步 通信 : 一 个 应 用 程序 在 与 远程 服务 器 交互 的 同时 ， 另 一 个 应 用 程序 可 以 与 其 他 服务 器 
进行 交互 。 

ARP 地址 解析 协议 (Address Resolution Protocol) 提供 两 种 功能 。 在 其 他 计算 机 发 送 TP 数据 包 到 
本 系统 之 前 ， 该 计算 机 必须 发 送 请 求 以 太 网 地 址 的 ARP 数据 包 ， 而 我 们 的 系统 必须 用 ARP 做 出 回应 。 
类 似 地 ， 在 我 们 的 系统 发 送 亿 数据 包 给 其 他 计算 机 之 前 ， 也 先 发 送 ARP 请求 ， 获 得 计算 机 的 以 太 网 地 
址 后 使 用 以 太 网 地 址 发 送 TP 数据 包 。 

DHCP 动态 主机 配置 协议 (Dynamic Host Configuration Protocol) 提供 了 获取 IP 地址、 网 络 地 址 
掩 码 和 上 默认 路 由 器 (default router) IP 地 址 的 机 制 。 计 算 机 广播 一 个 请 求 ， 运 行 在 网 络 上 的 DHCP 服务 
器 发 送 回应 。 在 网 络 通信 建立 前 ， 必 须 获 取 IP 地 址 等 相关 的 信息 。 我 们 的 实现 不 是 在 启动 时 立即 调用 
DHCP， 而 是 等 到 尝试 获取 本 地 IP 地 址 时 再 调用 。 
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ICMP 互联 网 控制 报 文 协议 (Internet Control Message Protocol) 提供 了 支持 全 协议 的 错误 和 消息 
报 文 。 我 们 的 实现 只 处 理 ping 程序 中 使 用 的 两 种 ICMP 报 文 : 回 显 请 求 (Echo Request) 和 回 显 应 答 
(Echo Reply) 。 由 于 ICMP 的 代码 很 大 ， 所 以 我 们 在 描述 协议 软件 结构 时 并 不 展示 所 有 细节 ， 其 完整 代 
码 可 以 通过 本 书 中 给 出 的 网 址 找到 ” 。 


17.3 同步 对 话 、 超 时 和 进程 

协议 软件 是 如 何 组 织 的 ?需要 多 少 进程 ? 一 个 完整 栈 包含 很 多 协议 ， 为 了 同步 使 用 这 些 协议 ， 很 多 实 
现 都 使 用 多 进程 ， 给 每 个 进程 分 配 其 中 的 一 个 协议 。 其 他 实现 使 用 软件 中 断 来 选择 进程 。 如 后 面 将 会 
看 到 的 ， 我 们 的 最 小 规模 软件 只 使 用 两 个 额外 的 进程 来 描述 上 述 的 协议 集 。 本 节 将 描述 进程 结 恤 ， 后 
面 的 各 节 将 会 解释 代码 。 

为 什么 需要 进程 呢 ? 因为 其 是 网 络 协议 设计 的 基础 。 超 时 重 发 (timeout- and- retransmission) 技术 
负责 处 理 数 据 包 丢失 的 情况 ( 如 服务 器 中 队列 溢出 )。 为 了 使 用 超时 重 发 ， 必 须 设计 一 个 协议 ,使 接 
收 者 对 每 个 报 文 产生 应 答 。 当 发 送 者 发 送 报 文 时 ， 它 同时 启动 一 个 定时 絮 。 如 果 应 答 到 达 之 前 定时 融 
到 期 ， 那么 发 送 者 将 认为 报 文 丢 失 并 重 发 第 二 个 副本 。 

我 们 的 软件 设计 优雅 ， 拥 有 一 个 网 络 输入 进程 ， 名 为 netin2 。 设 计 中 使 用 函数 recvtime 来 处 理 超 
时 。 也 就 是 说 ， 当 报 文 传送 结束 后 ， 发 送 者 调用 recvtime 函数 来 等 待 响应 。 当 收 到 响应 时 ， 网 络 输入 
进程 netin 发 送 报 文 给 等 待 进程 ， 同 时 recvtime 函数 将 报 文 作为 返回 值 返回 。 如 果 定 时 器 到 期 recvtime 
返回 TIMEOUT。 为 了 使 系统 正常 工作 ， 发 送 者 必须 与 netin 进程 协调 。 即 在 发 送 者 发 送 报 文 前 ， 它 必 
须 在 netin 知道 的 位 置 存储 进程 ID。 对 于 ARP 报 文 ， 进 程 ID 存储 在 ARP 表 以 用 于 解析 地 址 。 对 于 
UDP 报 文 ， 进 程 ID 存储 在 UDP 表 项 的 数据 包 队 列 中 ， 供 端口 使 用 。 图 17-1 说 明 netin 进程 如 何 存储 
UDP 队列 中 的 传人 数据 包 或 者 从 传人 的 ARP 数据 包 中 提取 信息 并 将 信息 放 入 ARP 表 项 中 。 另 一 种 情 
况 是 ， 如 果 进 程 在 等 待 ， 那 么 netin 就 发 送 报 文 给 等 待 的 进程 。 





图 17-1 netin 进程 的 概念 性 功能 


在 输出 端 ， 我 们 的 设计 允许 应 用 程序 调用 输出 函数 。 唯 一 的 例外 来 自 ICMP 回 显 : 我 们 的 设计 用 一 个 单 
独 的 ICMP 输出 进程 用 来 处 理 ping 应 答 。 这 个 例外 是 不 可 或 缺 的 ， 因 为 我 们 必须 将 ICMP 输入 和 输出 去 耦 ， 
同时 允许 在 ICMP 发 送 应 答 时 ， 网 络 输入 进程 能 够 继续 执行 。 去 耦 是 必 不 可 少 的 ， 因 为 ICMP 应 答 以 IP 数据 
包 的 形式 传输 ， 而 发 送 IP 数据 包 需 要 ARP 交换 。 为 了 使 ARP 工作 ， 网 络 输入 进程 需要 继续 执行 即 必 
须 读 取 和 处 理 传人 的 ARP 应 答 )。 因 此 ， 如 果 网 络 输入 进程 正在 等 待 ARP 的 应 答 ， 那 么 系统 将 会 死 锁 。 
图 17-2 阐述 的 是 解 耦合 的 过 程 : netin 进程 将 输出 的 ICMP 数据 包 放 入 队列 中 来 供 ICMP 输出 进程 使 用 。 


ping 请 求 
到 达 









Q URL: xinu. cs. purdue. edu. 
© netin 的 代码 见 17.6 T5. 
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17.4 ARP 函数 

在 以 太 网 上 的 两 台 计 算 机 能 够 使 用 人 P 协议 通信 之 前 ， 它 们 必须 知道 对 方 的 以 太 网 地 址 。 这 个 协议 
交换 两 个 报 文 : 计算 机 A 广播 一 个 包括 他 地 址 的 ARP 请 求 。 任 何 一 个 在 这 个 网 络 上 的 计算 机 ， 如 果 
有 请 求 中 的 人 P 地 址 ， 那 么 它 将 发 送 一 个 ARP 应 答 说 明 自己 的 以 太 网 地 址 。 当 有 应 答 到 达 时 计算 机 A 
时 ， 就 在 自己 的 ARP 缓存 中 增加 一 项 。 表 项 包括 远程 计算 机 的 IP 地址 和 自己 的 以 太 网 地 址 。 在 后 续 与 
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相同 的 目的 地 交互 时 ， 便 从 ARP 缓存 中 提取 信息 而 不 需要 发 送 ARP 请 求 。 

Xinu 实现 将 ARP 信息 存储 在 数组 arpcache 中 。 结 构 arpentry 定义 了 数组 中 每 项 的 内 容 ,包括 : 一 
个 状态 字段 〈 指 定 了 该 项 是 否 未 使 用 、 正 在 被 填充 或 者 已 经 被 填充 ) 、 一 个 卫 地 址 、 对 应 的 以 太 网 地 
址 和 一 个 进程 下。 如 果 进 程 处 于 挂 起 状态 ， 那 么 这 个 进程 ID 字段 包括 的 是 等 待 信息 到 达 的 进程 ID。 
文件 arp. h 中 定义 了 ARP 数据 包 的 格式 〈 当 在 以 太 网 中 使 用 时 ) 和 ARP 缓存 项 的 格式 : 


/* axp.h */ 


/* Items related to ARP - definition of cache and the packet format */ 


#define ARP HALEN 6 /* size of Ethernet MAC address */ 
#define ARP PALEN 4 /* size of IP address a 
#define ARP_HTYPE 1: /* Ethernet hardware type af 
#define ARP_PTYPE 0x0800 /* IP protocol type ey 
#define ARP_OP_REQ 1l /* Request op code */ 
#define ARP_OP_RPLY 2 /* Reply op code */ 
#define ARP SIZ 16 /* number of entries in a cache */ 
#define ARP RETRY 3 /* num. retries for ARP request */ 
#define ARP TIMEOUT 200 /* retry timer in milliseconds */ 
/* State of an ARP cache entry */ 
#define AR_FREE 0 /* slot is unused Ey 
#define AR_PENDING 1 /* resolution in progress wy 
#define AR RESOLVED 2 /* entry is valid ui d 
#pragma pack(2) 
struct  arppacket { /* ARP packet for IP & Ethernet */ 
byte arp ethdst[ETH ADDR LEN];/* Ethernet dest. MAC addr Li i 
byte arp ethsrc[ETH ADDR LEN];/* Ethernet source MAC address */ 
uint16 | ethtype; /* Ethernet type field Fy 
uintl6 arp_htype; /* ARP hardware type wy 
uint16 arp ptype; /* ARP protocol type ET 
byte arp_hlen; /* ARP hardware address length */ 
byte arp_plen; /* ARP protocol address length */ 
uint16 | Op; /* ARP operation a i 
byte arp sndha[ARP HALEN]; /* ARP sender's Ethernet addr.  */ 
uint32 arp sndpa; /* ARP sender's IP address */ 
byte arp_tarha[ARP_HALEN]; /* ARP target's Ethernet addr. */ 
uint32 | tarpa; /* ARP target's IP address ey) 
Fi 
#pragma pack() 
struct arpentry ( /* entry in the ARP cache Ef 


int32 arstate; /* state of the entry #/ 
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uint32 arpaddr; /* IP address of the entry sa 
pid32 arpid; /* waiting process or -1 af 
byte arhaddr [ARP_HALEN] ; /* Ethernet address of the entry*/ 


}i 


extern struct arpentry arpcache[]; 

ARP 在 请 求 和 响应 中 使 用 相同 的 数据 包 格式 ， 在 头 部 字段 指定 请 求 或 者 响应 的 类 型 。 在 任何 情况 
数据 包 里 都 包括 发 送 者 和 接受 者 的 IP 地 址 及 以 太 网 地 址 。 在 请 求 中 ， 目 标的 以 太 网 地 址 是 不 知道 
所 以 这 个 字段 的 值 为 0。 

我 们 的 ARP 软件 包括 4 个 函数 ，arp_init、arp_resolve arp in 和 arp_alloc。 所 有 这 4 个 函数 都 包括 
个 单独 的 源 文件 arp. c 中 : 


/* arp.c - arp_init, | resolve, arp in, arp alloc */ 


#include <xinu.h> 


struct arpentry arpcache[ARP_SIZ]; /* ARP cache */ 
sid32 arpmutex; /* Mutual exclusion semaphore ul 
/* dep m EE MU E EXP aa Uim RC WC ER RES aS M CEP M KE M ECKE een M m CL EU aid ES KR Gn M RU 


*/ 

void init (void) { 
int32 i; /* ARP cache index ÈJ 
arpmutex = semcreate (1); 
for (i=1; i<ARP_SIZ; i++) { /* initialize cache to empty */ 

arpcache[i].arstate - AR FREE; 

} 

} 

/* —————————————————————————— M —————À 


x 
status arp resolve ( 
uint32 ipaddr, /* IP address to resolve ty 
byte  mac[ETH_ADDR_LEN] /* array into which Ethernet xy 


) /* address should be placed */ 


struct  arppacket apkt; /* local packet buffer *y 
int32 i; /* index into arpcache Kf 
int32 slot; /* ARP table slot to use iy 
struct arpentry  *arptr; /* ptr to ARP cache entry uj 
int32 msg; /* message returned by recvtime */ 


byte ethbcast[] = (Oxff,O0xff,O0xff,Oxff,Oxff,Oxff); 


if (ipaddr -- IP BCAST) ( /* set mac address to b-cast */ 
memcpy (mac, ethbcast, ETH ADDR LEN); 
return OK; 

} 


/* Insure only one process uses ARP at a time */ 


wait (arpmutex) ; 
for (i=0; i<ARP_SIZ; i++) { 
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arptr = &arpcache[i]; 
if (arptr->arstate == AR_FREE) { 
continue; 


} 
if (arptr->arpaddr == ipaddr) { /* adddress is in cache */ 


break; 


if (i « ARP SIZ) ( /* entry was found */ 
/* Only one request can be pending for an address */ 


if (arptr->arstate == AR PENDING) ( 
signal (arpmutex) ; 
return SYSERR; 


/* Entry is resolved - handle and return */ 


memcpy (mac, arptr->arhaddr, ARP HALEN); 


signal (arpmutex) ; 
return OK; 


/* Must allocate a new cache entry for the request */ 


slot = | alloc(); 

if (slot -- SYSERR) ( 
signal (arpmutex) ; 
return SYSERR; 

} . 

arptr - &arpcache[slot]; 

arptr-»arstate - AR PENDING; 

arptr->arpaddr = ipaddr; 

arptr->arpid = currpid; 


/* Release ARP cache for others */ 
signal (arpmutex) ; 
/* Hand-craft an ARP Request packet */ 


memcpy (apkt.arp_ethdst, ethbcast, ETH_ADDR_LEN) ; 
memcpy (apkt.arp_ethsrc, NetData.ethaddr, ETH_ADDR_LEN) ; 


apkt.arp_ethtype = ETH_ARP; /* Packet type is ARP * 
apkt. | htype = ARP HTYPE; /* Hardware type is Ethernet */ 
apkt.arp ptype - ARP PTYPE; /* Protocol type is IP #/ 


apkt.arp_hlen = 0xff & ARP_HALEN; /* Ethernet MAC size in bytes */ 
apkt.arp plen = Oxff & ARP PALEN; /* IP address size in bytes =) 


apkt.arp_op = Oxffff & ARP_OP_REQ;/* ARP type is Request id 
memcpy(apkt.arp sndha, NetData.ethaddr, ARP HALEN); 

apkt.arp sndpa - NetData.ipaddr;  /* Local IP address ef 
memset(apkt.arp tarha, ‘\0’, ARP HALEN); /* Target HA is unknown*/ 
apkt.arp tarpa - ipaddr; /* Target protocol address Ep 


/* Send the packet ARP RETRY times and await response*/ 
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msg = recvclr(); 
for (i=0; i<ARP_RETRY; i++) { 
write(ETHERO, (char *)&apkt, sizeof(struct arppacket)); 
msg = recvtime(ARP TIMEOUT); 
if (msg == TIMEOUT) { 
continue; 
} else if (msg == SYSERR) { 
return SYSERR; 
} else { /* entry is resolved */ 
break; 


/* Verify that entry has not changed */ 


if (arptr->arpaddr != ipaddr) { 
return SYSERR; 


/* Either return hardware address or TIMEOUT indicator */ 


if (i < ARP_RETRY) { 
memcpy (mac, arptr->arhaddr, ARP HALEN); 
return OK; 
) else ( 
arptr->arstate = AR FREE; /* invalidate cache entry */ 
return TIMEOUT; 


ey 

void arp_in (void) { /* currpkt points to the packet */ 
struct arppacket *pktptr; /* ptr to incoming packet vf 

struct arppacket apkt; /* Local packet buffer ux d 

int32 slot; 5 /* slot in cache Ef 

struct arpentry *arptr; /* ptr to ARP cache entry Ey 

boo18 found; /* is the sender's address in #7 

yA the cache? Ey 


/* Insure only one process uses ARP at a time */ 
wait (arpmutex) ; 

pktptr = (struct arppacket *)currpkt; 

/* Search cache for sender's IP address */ 

found = FALSE; 


for (slot=0; slot < ARP_SIZ; slot++) { 
arptr = &arpcache[slot]; 


/* Ignore unless entry valid and address matches */ 
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if ( (arptr->arstate != AR_FREE) && 
(arptr->arpaddr == pktptr->arp_sndpa) ) { 


found = TRUE; 
break; 


if (found) { /* Update sender's hardware address */ 
memcpy (arptr->arhaddr, pktptr--arp sndha, ARP HALEN); 
/* Handle entry that was pending */ 


if (arptr->arstate == AR PENDING) ( 
arptr->arstate = AR RESOLVED; 


/* Notify waiting process */ 


send(arptr->arpid, OK); 


/* For an ARP reply, processing is complete */ 


if (pktptr-»arp op == ARP OP RPLY) { 
signal (arpmutex) ; 


return; 
} 
/* ARP request packet: if local machine is not the target, Vf 
{* processing is complete */ 
if ((! NetData.ipvalid) || (pktptr->arp_tarpa!=NetData.ipaddr)) { 
signal (arpmutex) ; 
return; 
} 
/* Request has been sent to local machine: add sender's info kJ 
pe to cache, if not already present &/ 


if (! found) ( 
slot - arp alloc(); 
if (slot -- SYSERR) ( /* cache overflow */ 
signal (arpmutex) ; 
return; 
} 
arptr = &arpcache[slot]; 
arptr->arstate = AR_RESOLVED; 
arptr->arpaddr = pktptr->arp_sndpa; 
memcpy (arptr->arhaddr, pktptr-»arp sndha, ARP HALEN); 


/* Hand-craft an ARP reply packet and send */ 


memcpy(apkt.arp ethdst, pktptr->arp_sndha, ARP HALEN); 
memcpy(apkt.arp ethsrc, NetData.ethaddr, ARP HALEN); 
apkt.arp ethtype- ETH ARP; /* Frame carries ARP ay 
apkt.arp htype ARP HTYPE; /* Hardware is Ethernet */ 
apkt.arp ptype = ARP PTYPE; /* Protocol is IP *7 
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apkt .arp_hlen = ARP_HALEN; /* Ethernet address size*/ 
apkt .arp_plen = ARP_PALEN; /* IP address size */ 
apkt .arp_op = ARP OP RPLY; /* Type is Reply ta 


/* Insert local Ethernet and IP address in sender fields */ 


memcpy (apkt .arp_sndha, NetData.ethaddr, ARP HALEN); 
apkt.arp_sndpa = NetData.ipaddr; 


/* Copy target Ethernet and IP addresses from request packet */ 


memcpy(apkt.arp tarha, pktptr->arp_sndha, ARP HALEN); 
apkt.arp tarpa - pktptr-»arp sndpa; 


/* Send the reply */ 
write(ETHERO, (char *)&apkt, sizeof(struct  arppacket)); 


signal (arpmutex) ; 
return; 


arp alloc (void) ( 


static int32 nextslot - 0; /* next slot to try z 
int32 i; /* counts slots in the table * 
int32 slot; /* slot that is selected * 


/* Search for free slot starting at nextslot */ 


for (i=0; i « ARP SIZ; i++) { 
slot = nextslot++; 
if (nextslot >= ARP_SIZ) { 
nextslot = 0; 
} 
if (arpcache[slot].arstate == AR FREE) { 
return slot; 


/* Search for resolved entry */ 


slot = nextslot + 1; 
for (i=0; i < ARP_SIZ; i++) { 
if (slot >= ARP SIZ) { 
slot = 0; 
} 
if (arpcache[slot].arstate == AR RESOLVED) { 
return slot; 


/* All slots are pending */ 


kprintf("ARP cache size exceeded\n\r") ; 
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return SYSERR; 
) 
arp_init ” 当 系统 启动 时 ， 调 用 函数 arp_init。 它 确保 ARP 缓存 中 的 所 有 项 为 空 并 创建 一 个 互 斥 信 


号 量 来 确保 在 任何 时 刻 只 有 一 个 进程 尝试 修改 ARP 缓存 〈 如 插 人 一 个 新 项 ) . PARK arp. resolve 和 arp. in 
分 别 用 于 处 理 地 址 查找 和 即将 到 来 的 ARP 包 。 当 一 个 新 条 目 加 入 到 表 中 时 ,会 调用 函数 arp_alloc 为 其 
分 配 一 项 。 

arp resolve ” 当 准 备 发 送 IP 数据 包 时 ， 发 送 进程 调用 函数 arp_resolve。arp_resolve 有 两 个 参数 : 第 
一 个 指定 请 求 以 太 网 地 址 的 计算 机 的 IP 地 址 ， 第 二 个 是 存储 以 太 网 地 址 的 数组 指针 。 

尽管 代码 看 上 去 比较 复杂 ， 但 却 只 有 3 种 情况 : IP 地 址 是 个 广播 地 址 、 信 息 已 经 存储 存 ARP 缓存 
中 、 信 息 还 是 未 知 的 。 对 于 卫 广播 地 址 ，arp_resolve 将 以 太 网 广播 地 址 复制 到 第 二 个 参数 所 指定 的 数 
组 中 。 如 果 信 息 已 经 存在 于 缓存 中 ，arp_resolve 将 寻找 到 正确 的 条 目 ， 从 条 目 中 将 以 太 网 地 址 复制 到 
调用 者 的 数组 里 不 需要 在 网 络 上 发 送 任何 数据 包 就 返回 到 调用 者 。 

当 请 求 的 信息 并 不 在 缓存 中 时 ，arp_resolve 必须 在 网 络 中 发 送 数据 包 以 获得 信息 。 这 个 交换 包括 
发 送 请 求 和 等 待 应 答 。arp_resolve 先 在 表 中 创建 一 个 条 目 ， 标 记 这 个 条 目 为 AR_PENDING ， 形 成 一 个 
ARP 请 求 包 ， 在 局 域 网 上 广播 这 个 数据 包 ， 然 后 等 竺 应答。 正如 上 面 所 讨论 的 ，arp_resolve 使 用 recv- 
time 来 启动 等 待 超时 。 调 用 recvtime 会 在 应 答 到 达 或 者 定时 器 超时 时 返回 ， 而 不 管 哪个 先 发 生 。 在 下 
一 节 我 们 将 描述 如 何 处 理 传人 的 数据 包 和 如 何 给 等 待 进程 发 送 消息 。 

arp in 这 是 第 二 个 主要 的 ARP PA, netin 进程 检查 每 个 传人 的 以 太 网 数据 包 的 类 型 字段 。 如 果 
发 现 ARP 数据 包 的 类 型 为 0x806， 那 么 netin 调用 函数 arp. in 去 处 理 这 个 数据 包 。arp_in 必须 处 理 两 种 
情况 : 数据 包 是 另 一 台 计 算 机 发 起 的 请 求 或 者 是 我 们 发 送 请 求 后 的 应 答 

ARP 协议 规定 无 论 何 种 类 型 的 数据 包 到 达 ， ARP 必须 检测 发 送 者 的 信息 《站 地址 和 以 太 网 地 址 )， 
并 且 更 新 本 地 缓存 。 如 果 有 进程 正在 等 待 响应 ， 那 么 arp. in 会 发 送 消息 来 通知 该 进程 。 

因为 ARP 请 求 是 广播 的 ， 所 有 在 网 络 上 的 计算 机 都 会 收 到 每 个 请 求 。 因 此 在 更 新 发 送 者 信息 之 
前 ，arp_in 会 检查 请 求 中 的 目标 IP 地 址 以 便 决定 请 求 是 针对 本 地 系统 还 是 针对 网 络 上 的 其 他 计算 机 。 
如 果 请 求 是 针对 其 他 计算 机 ， 那 么 arp_in 不 做 任何 事情 就 返回 。 如 果 传 人 请 求 中 的 目标 IP 地 址 与 本 地 
系统 的 四 地址 匹配 ， 那 么 arp in 发 送 一 个 ARP 应 答 。arp_in 在 变量 apkt 中 构造 一 个 应 答 。 当 数据 包 中 
所 有 字段 填 满 时 ， 就 调用 在 以 太 网 设备 上 的 write 将 应 答 传 送 给 请 求 者 。 


17.5 网 络 数据 包 的 定义 


我 们 网 络 协议 的 最 小 实现 结合 了 IP, UDP, ICMP 和 以 太 网 。 也 就 是 说 ， 我 们 用 一 个 单独 的 名 为 
netpacket 的 数据 结构 去 描述 包含 TP. 数据 报 的 以 太 网 数据 包 一 一 这 个 数据 包 可 能 包含 ICMP 报 文 或 者 
UDP 报 文 。 文 件 net h 定义 了 netpacket 以 及 其 他 常量 和 数据 结构 。 


/* net.h */ 





/* Constants used in the networking code */ 


#define ETH ARP 0x0806 /* Ethernet type for ARP *7 
#define ETH IP 0x0800 /* Ethernet type for IP ii 
#define IP_BCAST Oxffffffff /* IP local broadcast address *y 
#define IP THIS Oxffffffff /* "this host" src IP address */ 
#define IP ICMP i /* ICMP protocol type for IP * 
#define IP UDP LI /* UDP protocol type for IP 2y 


#define IP_ASIZE 4 /* bytes in an IP address *7 


#define IP_HDR_LEN 20 


/* 
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bytes in an IP header TI 


/* Format of an Ethernet packet carrying IPv4 and UDP */ 


net ethdst[ETH ADDR LEN];/* Ethernet dest. MAC address */ 
net ethsrc[ETH ADDR LEN];/* Ethernet source MAC address */ 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


/[* 
/* 
/* 
/* 


Ethernet type field *y 
IP version and hdr length #7 
IP type of service * d 
IP total packet length *y 
IP datagram ID ui 
IP flags & fragment offset ay 
IP time-to-live *7 
IP protocol (actually type) */ 
IP checksum */ 
IP source address al d 
IP destination address ld 
UDP source protocol port x 
UDP destination protocol port*/ 
UDP total length 4 
UDP checksum Ef 


byte net udpdata[1500-42];/* UDP payload (1500-above)*/ 


/* 
/* 
/* 
/* 
/* 


ICMP message type ef 
ICMP code field (0 for ping) */ 
ICMP message checksum ud 
ICMP identifier ni À 
ICMP sequence number #/ 


net_icdata[1500-42];/* ICMP payload (1500-above)*/ 


#pragma pack(2) 
struct netpacket { 
byte 
byte 
uint16 net ethtype; 
byte net ipvh; 
byte net iptos; 
uintl6 net iplen; 
uintl6 net ipid; 
uint16 net ipfrag; 
byte net ipttl; 
byte net ipproto; 
uintl6 net ipcksum; 
uint32 net ipsrc; 
uint32 net ipdst; 
union ( 
struct { 
uint16 net_udpsport; 
uint16 net udpdport; 
uint16 net_udplen; 
uint16 net_udpcksum; 
): 
struct 1 
byte net ictype; 
byte net iccode; 
uint16 net_iccksum; 
uint16 net_icident; 
uint16 net_icseg; 
byte 
); 
he 
}; 
#pragma pack() 
extern struct netpacket *currpkt; 
extern bpid32 netbufpool; 
struct network { 
uint32 ipaddr; 
uint32 addrmask; 
uint32 routeraddr; 
bool8 ipvalid; 
byte ethaddr[ETH ADDR LEN]; 
}; 
extern struct network NetData; 


17.6 网 络 输入 进程 


在 系统 启动 时 ，Xinu 创建 网 络 输入 进程 netin。 因 此 ，netin 在 其 他 应 用 进程 之 前 就 开始 运行 。 在 
创建 了 一 个 缓冲 池 并 初始 化 全 局 变量 之 后 ，netin 调用 初始 化 函数 arp_init, udp_init 和 icmp_init。 然 
后 分 配 一 个 初始 网 络 缓冲 区 并 进入 一 个 重复 读 取 和 处 理 数 据 包 的 无 限 循环 中 。 当 从 以 太 网 中 读 取 一 


/* 
/* 


/[* 
/* 
/* 
/* 
/* 


/* 


ptr to current input packet */ 
ID of net packet buffer pool */ 


IP address *7 
Subnet mask SY 
Address of default router Gh 
Is IP address valid yet? *j 
Ethernet address kf 
Local network interface */ 
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个 数据 包 时 ，netin 用 在 数据 包 中 的 以 太 网 类 型 字段 来 决定 以 太 网 数据 包 是 否 装载 了 ARP 报 文 或 者 下 
数据 报 。 如 果 是 ARP JC, netin 就 调用 arp. in 处 理 这 个 数据 包 。 如 果 是 IP 数据 报 ，netin 就 检查 这 
个 开头 部 的 校 验 和 是 否 有 效 ， 验 证 目的 IP 地 址 是 否 与 广播 地 址 或 者 本 地 地 址 匹配 ， 然 后 用 在 IPA 
部 的 类 型 字段 验证 数据 报 装载 的 是 UDP 还 是 ICMP。 如 果 所 有 的 测试 都 失败 ，netin 就 转 人 下 一 个 数据 
包 。 如 果 测 试 表 明 信 息 是 有 效 的 ，netin 就 调用 icmp_in 或 者 udp_in 来 处 理 数据 包 。 文 件 netin. c 包含 了 
这 些 代码 。 


/* netin.c - netin */ 


#include <xinu.h> 


bpid32 netbufpool; /* ID of network buffer pool ay 
struct netpacket *currpkt; /* packet buffer being used now */ 
struct network NetData; /* local network interface Fiy 
/* — ————M—ÓÓ———ÓM———Ó—Ó——ÓÁ———— ea at ee 


process netin(void) { 


status retval; /* return value from function */ 
netbufpool = mkbufpool(PACKLEN, UDP SLOTS * UDP QSIZ + 
ICMP SLOTS * ICMP QSIZ + ICMP OQSIZ + 1); 
if (netbufpool -- SYSERR) ( 
kprintf("Cannot allocate network buffer pool"); 
kill(getpid()); 
} 
/* Copy Ethernet address to global variable */ 
control(ETHERO, ETH_CTRL_GET_MAC, (int32)NetData.ethaddr, 0); 
/* Indicate that IP address, mask, and router are not yet valid */ 
NetData.ipvalid = FALSE; 
NetData.ipaddr = 0; 
NetData.addrmask - 0; 
NetData.routeraddr - 0; 
/* Initialize ARP cache */ 
arp init(); 
/* Initialize UDP table */ 
udp init(); 
/* Initialize ICMP table */ 
icmp init(); 


currpkt - (struct netpacket *)getbuf (netbufpool); 
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/* Do forever: read packets from the network and process */ 


while(1) ( 
retval - read(ETHERO, (char *)currpkt, PACKLEN); 
if (retval -- SYSERR) ( 


panic("Ethernet read error"); 


/* Demultiplex on Ethernet type */ 
switch (currpkt-»net ethtype) ( 


case ETH ARP: 


arp in(); /* Handle an ARP packet */ 
continue; 
case ETH IP: 
if (ipcksum(currpkt) !- 0) ( 
kprintf("checksum failed\n\r") ; 
continue; 
} 


if (currpkt->net_ipvh != 0x45) { 
kprintf ("version failed\n\r") ; 
continue; 


if ( (currpkt->net_ipdst != IP_BCAST) && 
(NetData.ipvalid) && 
(currpkt-»net ipdst !- NetData.ipaddr) ) { 
continue; 


/* Demultiplex ICMP or UDP and ignore others */ 


if (currpkt->net_ipproto == IP_ICMP) { 


icmp in(); /* Handle an ICMP packet*/ 
) else if (currpkt-»net ipproto -- IP UDP) ( 
udp in(); /* Handle a UDP packet */ 
) 
continue; 
default: /* Ignore all other Ethernet types */ 
continue; 
) 
} 
} 
/[* rep ———tSP———————————————————— a 


uint16  ipcksum( 
struct netpacket *pkt /* ptr to a packet */ 
) 
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uint16 *hptr; /* ptr to 16-bit header values */ 
int32 LE . /* counts 16-bit values in hdr */ 
uint32  cksum; /* computed value of checksum ey 


hptr= (uint16 *) &pkt->net_ipvh; 
cksum = 0; 
for (i=0; i<10; i++) { 
cksum += (uint32) *hptr++; 
} 
cksum += (cksum >> 16); 
cksum = Oxffff & ~cksum; 
if (cksum == Oxffff) { 
cksum = 0; 
} 
return (uint16) (Oxffff & cksum); 


} 

我 们 的 netin 实现 依赖 一 个 全 局 变量 currpkt， 它 总 是 指向 正在 处 理 的 数据 包 。 也 就 是 说 ，currpkt 
指向 当前 数据 包 所 使 用 的 缓冲 区 。 在 循环 开始 前 ，netin 调用 getbuf 获得 一 个 缓冲 区 ， 然 后 将 缓冲 区 
的 地 址 分 配给 currpkt。 在 每 次 迭代 中 ，netin 会 将 数据 包 读 到 当前 的 缓冲 区 中 。 因 此 ， 当 netin 调用 
arp. in 或 udp_in 时 ，currpkt 指向 应 处 理 的 数据 包 。arp_in 从 数据 包 中 抽取 信息 ， 并 使 currpkt 指向 可 
以 重用 的 缓冲 区 。 如 果 调 用 的 是 udp_in， 那么 到 达 的 数据 包 可 能 需要 入 队 进入 一 个 UDP 表 项 里 。 
如 果 当 前 的 数据 包 入 队 ， 那 么 在 返回 到 netin 前 ，udp_in 会 分 配 一 个 新 的 缓冲 区 并 将 缓冲 区 的 地 址 分 
配给 currpkt。 


17.7 UDP 表 的 定义 

UDP 维护 一 张 表 来 记录 当前 正在 使 用 的 UDP 终端 的 集合 。 每 一 个 终端 由 一 个 人 P 地 址 和 一 个 UDP 
端口 号 组 成 。UDP 表 项 用 4 个 字段 来 指明 两 个 终端 对 ， 一 个 是 远程 计算 机 ， 男 一 个 是 本 地 计算 机 。 

为 了 充当 从 任意 远程 计算 机 上 接收 数据 包 的 服务 器 ，UDP 进程 分 配 一 个 UDP 表 项 、 填 写本 地 的 终 
端 信息 ， 但 不 指明 远程 终端 的 信息 。 为 了 充当 可 以 和 特定 的 远程 计算 机 通信 的 客户 端 ， 则 分 配 一 个 表 
项 、 填 写本 地 和 远程 终端 信息 。 

除了 终端 信息 外 ， 每 个 UDP 表 项 都 包含 一 个 从 远程 系统 到 达 的 数据 包 队 列 (数据 包 中 指定 的 终端 
必须 与 表 项 中 的 相 匹 配 )。UDP 表 的 每 个 表 项 都 用 结构 udpentry RHR. udp. h 文件 定义 了 该 结构 和 一 
些 关联 的 符号 常量 。 


/* udp.h - declarations pertaining to User Datagram Protocol (UDP) */ 





#define UDP_SLOTS 6 /* num. of open UDP endpoints ia 
#define UDP_QSIZ 8 /* packets enqueued per endpoint*/ 
#define UDP_DHCP_CPORT 68 /* port number for DHCP client */ 
#define UDP DHCP SPORT 67 /* port number for DHCP server  */ 


/* Constants for the state of an entry */ 


#define UDP FREE 0 /* entry is unused A 
#define UDP USED 1 /* entry is being used */ 
#define UDP RECV 2 /* entry has a process waiting  */ 
#define UDP HDR LEN 8 /* bytes in a UDP header ay 
struct udpentry { /* entry in the UDP endpoint tbl*/ 

int32 udstate; /* state of entry: free/used ad 


uint32  udremip; /* remote IP address (zero £7 


uint32 
uint16 
uint16 
int32 
int32 
int32 
pid32 
struct 
di 


extern struct 


17.8 UDP 函数 


在 我 们 的 系统 中 ， 应 用 程序 使 用 UDP 进行 所 有 的 通信 。 因 此 ，UDP 接口 允许 应 用 程序 发 送 和 接收 
UDP 消息 ， 并 且 应 用 程序 可 以 充当 客户 端 或 服务 器 的 和 角色。 我 们 的 UDP 软件 包括 7 个 函数 : udp_init、 
udp in, udp register, udp_recv, udp recvaddr, udp send 和 udp_release, udp. c 文件 中 包含 这 7 个 函数 。 


udlocip; 
udremport ; 
udlocport; 
udhead; 
udtail; 
udcount; 
udpid; 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
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means "don't care") 
local IP address 
remote protocol port number 
local protocol port number 
index of next packet to read 
index of next slot to insert 
count of packets enqueued 
ID of waiting process 


netpacket *udqueue[UDP QSIZ];/* circular packet queue 


udpentry udptab[]; 


下 面 的 代码 描述 了 每 个 UDP 函数 的 功能 。 


/* udp.c - udp init udp in udp register udp_recv udp recvaddr udp send 


/* 


udp release 


#include «xinu.h» 


struct udpentry udptab[UDP SLOTS]; 


/* 


table of UDP endpoints 


/* table of UDP endpts 


table index */ 


xf 

void udp init(void) ( 
int32 i; gr 
for(i=0; i«UDP SLOTS; i++) ( 

udptab[i].udstate - UDP FREE; 

} 
return; 

} 


void udp in(void) ( 


int32 


à 


struct udpentry *udptr; 


for (i20; i«UDP SLOTS; i++) 


udptr = &udptabl[i]; 
(udptr->udstate != UDP FREE) && 


if ( 


(currpkt-»net udpdport 


*/ 
*/ 
wp 
*/ 
my 
if 
wf 
*y 
ui 


SY 


- 
Sp 


wy 


/* currpkt points to the packet */ 


/* index into udptab 
/* pointer to udptab entry 


udptr->udlocport)  && 


((udptr-»udremport == 0) || 
(currpkt->net_udpsport == udptr->udremport)) && 


( ((udptr-»udremip--0) 
(currpkt-»net ipsrc 


== udptr-»udremip))) ) t 


* 
=f 
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/* Entry matches incoming packet */ 


if (udptr->udcount < UDP QSIZ) { 
udptr->udcount++; 
udptr->udqueue [udptr->udtail++] = currpkt; 
if (udptr->udtail >= UDP QSIZ) { 
udptr->udtail = 0; 
} 
currpkt = (struct netpacket *)getbuf (netbufpool); 
if (udptr->udstate == UDP_RECV) { 
udptr->udstate = UDP_USED; 
send (udptr->udpid, OK); 


return; 


/* no match - simply discard packet */ 


return; 
} 
/* ccnl; a i 
* udp_register - register a remote (IP,port) and local port to receive 
sai incoming UDP messages from the specified remote site 
* sent to a specific local port 
Noa e Re E EE ERN RE dt ME RT UA LCS Um ne M C ULT dee E qus ak E mcd uds ab ues 
xy 
status udp_register ( 
uint32 remip, /* remote IP address or zero ey 
uint16 remport, /* remote UDP protocol port € 
uint16 locport /* local UDP protocol port ni 
) 
t 
int32 LF /* index into udptab wy 
struct udpentry *udptr; /* pointer to udptab entry wy 


/* See if request already registered */ 


for (i20; i«UDP SLOTS; i++) ( 

udptr - &udptab[i]; 

if (udptr->udstate == UDP FREE) ( 
continue; 

} 

if ((remport == udptr->udremport) && 
(locport == udptr->udlocport) && 
(remip == udptr->udremip ) ) { 


/* Entry in table matches request */ 
return SYSERR; 


/* Find a free slot and allocate it */ 


for (i=0; i<UDP_SLOTS; i++) { 
udptr = &udptab[i]; 


第 17 章 ”最 小 互联 网 协议 栈 


if (udptr->udstate == UDP FREE) { 
UDP_USED; 


udptr->udstate = 
udptr->udlocport 
udptr->udremport 
udptr->udremip = 
udptr->udcount = 


locport; 
remport; 


remip; 


0; 


udptr->udhead = udptr->udtail = 0; 


udptr->udpid = -1; 


return OK; 


udp recv ( 
uint32 remip, 
uint16 remport, 
uint16 locport, 
char *buff, 
int32 len, 
uint32 timeout 


intmask mask; 

int32 i; 

struct udpentry *udptr; 
umsg32 msg; 

struct netpacket *pkt; 
int32 msglen; 

char *udataptr; 


mask = disable(); 
for (i=0; i<UDP_SLOTS; i++) ( 


udptr = &udptab[i]; 


remote IP address or zero 
remote UDP protocol port 
local UDP protocol port 
buffer to hold UDP data 
length of buffer 

read timeout in msec 


interrupt mask 

index into udptab 
pointer to udptab entry 
message from recvtime() 
ptr to packet being read 


length of UDP data in packet 


pointer to UDP data 


if ((remport -- udptr-»udremport) && 
(locport == udptr-»udlocport) && 


(remip == udptr->udremip 


y »t 


/* Entry in table matches request */ 


break; 


if (i >= UDP SLOTS) ( 


restore (mask); 
return SYSERR; 


if (udptr->udcount == 0) { 


udptr->udstate = UDP_RECV; 
udptr->udpid = currpid; 
msg recvclr(); 

msg recvtime (timeout); 
udptr->udstate = UDP USED; 


LU 


/* No packet is waiting */ 


/* Wait for a packet 7 
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if (msg == TIMEOUT) { 
restore (mask); 
return TIMEOUT; 

} else if (msg != OK) { 
restore (mask) ; 
return SYSERR; 


/* Packet has arrived -- dequeue it */ 


pkt = udptr->udqueue [udptr->udhead++] ; 

if (udptr->udhead >= UDP SLOTS) { 
udptr->udhead = 0; 

} 

udptr-»udcount--; 


/* Copy UDP data from packet into caller's buffer */ 


msglen - pkt-»net udplen - UDP HDR LEN; 
udataptr - (char *)pkt-»net udpdata; 
for (i20; i«msglen; i++) ( 
if (i >= len) { 
break; 
= 
*buff++ = *udataptr++; 
} 
freebuf ( (char *)pkt); 
restore (mask); 
return i; 


ty 

int32 udp recvaddr ( 
uint32 *remip, /* loc to record remote IP addr. 
uint16 *remport, /* loc to record remote port 
uint16 locport, /* local UDP protocol port 
char *buff, /* buffer to hold UDP data 
int32 len, /* length of buffer 
uint32 timeout /* read timeout in msec 
) 

{ 
intmask mask; /* interrupt mask 
int32 i; /* index into udptab 
struct udpentry *udptr; /* pointer to udptab entry 
umsg32 msg; /* message from recvtime() 
struct netpacket *pkt; /* ptr to packet being read 
int 32 msglen; /* length of UDP data in packet 
char *udataptr; /* pointer to UDP data 


mask = disable(); 
for (i=0; i<UDP_SLOTS; i++) { 
udptr = &udptab[i]; 
if ( (udptr->udremip == 0 ) && 
(locport == udptr->udlocport) ) { 
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/* Entry in table matches request */ 
break; 


if (i >= UDP_SLOTS) { 
restore (mask); 
return SYSERR; 


if (udptr-»udcount -- 0) ( /* no packet is waiting */ 
udptr->udstate = UDP RECV; 
udptr->udpid = currpid; 
msg recvclr(); 
msg = recvtime (timeout); /* wait for packet */ 
udptr->udstate = UDP USED; 
if (msg -- TIMEOUT) ( 
restore (mask); 
return TIMEOUT; 
) else if (msg !- OK) ( 
restore (mask); 
return SYSERR; 


/* Packet has arrived -- dequeue it */ 


pkt = udptr-»udqueue [udptr->udhead++] ; 

if (udptr->udhead >= UDP SLOTS) ( 
udptr-»udhead - 0; 

) 

udptr-»udcount--; 


/* Record sender's IP address and UDP port number */ 


*remip - pkt-»net ipsrc; 
*remport - pkt-»net udpsport; 


/* Copy UDP data from packet into caller's buffer */ 


msglen - pkt-»net udplen - UDP HDR LEN; 
udataptr = (char *)pkt-»net udpdata; 
for (i20; i<msglen; i++) { 

if (i >= len) { 

break; 

} 

*buff++ = *udataptr++; 
} 
freebuf ( (char *)pkt); 
restore (mask); 
return i; 


ey 
status udp_send ( 
uint32 remip, /* remote IP address or IP_BCAST*/ 
/* for a local broadcast *j/ 
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uint16 remport, /* remote UDP protocol port *7 
uint32 locip, /* local IP address kj 
uint16 locport, /* local UDP protocol port wy 
char *baff, /* buffer of UDP data *j 
int32 len /* length of data in buffer */ 
) 
{ 

struct netpacket pkt; /* local packet buffer */ 
int 32 pktlen; /* total packet length */ 
static uint16 ident = 1; /* datagram IDENT field +) 
char *udataptr; /* pointer to UDP data wy 


byte ethbcast[] = {Oxff,Oxff, Oxff, Oxff, Oxff, Oxff}; 

/* Compute packet length as UDP data size + fixed header size */ 
pktlen = ((char *)pkt.net udpdata - (char *)&pkt) + len; 

/* Create UDP packet in pkt */ 


memcpy(pkt.net ethsrc, NetData.ethaddr, ETH ADDR LEN); 


pkt.net ethtype - 0x800; /* Type is IP */ 

pkt.net ipvh = 0x45; /* IP version and hdr length ®/ 
pkt.net iptos = 0x00; /* Type of service sj 
pkt.net iplen- pktlen - ETH HDR LEN;/* total IP datagram length */ 
pkt.net ipid = ident++; /* datagram gets next IDENT #7 
pkt.net ipfrag = 0x0000; /* IP flags & fragment offset xf 
pkt.net ipttl - Oxff; /* IP time-to-live #/ 
pkt.net ipproto = IP UDP; /* datagram carries UDP ui 
pkt.net ipcksum = 0x0000; /* initial checksum */ 
pkt.net ipsrc - locip; /* IP source address =y 
pkt.net ipdst = remip; /* IP destination address *J 


/* compute IP header checksum */ 
pkt.net ipcksum = Oxffff & ipcksum(&pkt); 


pkt.net udpsport - locport; /* local UDP protocol port *4 
pkt.net udpdport - remport; /* remote UDP protocol port xj, 
pkt.net udplen = (uint16) (UDP_HDR_LEN+len); /* UDP length ey 
pkt.net udpcksum = 0x0000; /* ignore UDP checksum *y 


udataptr - (char *) pkt.net udpdata; 
for (; len>0; len--) { 
*udataptr++ = *buff++; 


/* Set MAC address in packet, using ARP if needed */ 


if (remip == IP_BCAST) { /* set mac address to b-cast k} 
memcpy (pkt .net_ethdst, ethbcast, ETH_ADDR_LEN); 


/* If destination isn't on the same subnet, send to router had 


} else if ((locip & NetData.addrmask) 
1= (remip & NetData.addrmask)) ( 
if (arp resolve(NetData.routeraddr, pkt.net ethdst)!-OK) ( 
kprintf("udp send: cannot resolve router %08x\n\r", 
NetData.routeraddr); 
return SYSERR; 
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} else { 
/* Destination is on local subnet - get MAC address */ 


if (arp resolve(remip, pkt.net ethdst) != OK) ( 


kprintf("udp send: cannot resolve %08x\n\r",remip) ; 
return SYSERR; 


Write(ETHERO, (char *)&pkt, pktlen); 


return OK; 
} 
/* €—————————————————————————————— 
* udp release - release a previously-registered remote IP, remote 
* port, and local port (exact match required) 
t-dliichkiciistciliomugt[u,p(tlQm’’icdImuu6sceOohoblasuisic.esi:zizòt. as A cea 
ial 4 
status udp_release ( 
uint32 remip, /* remote IP address or zero Wy 
uint16 remport, /* remote UDP protocol port £/ 
uint16 locport /* local UDP protocol port ial’ 
) 
{ 
int32 i; /* index into udptab €/ 
struct udpentry *udptr; /* pointer to udptab entry ey! 
struct netpacket *pkt; /* ptr to packet being read wy 
for (i=0; i<UDP_SLOTS; i++) { 
udptr = &udptabli]; 
if (udptr->udstate != UDP_USED) { 
continue; 
} 
if ((remport == udptr->udremport) && 
(locport == udptr->udlocport) && 
(remip == udptr->udremip ) ) { 
/* Entry in table matches */ 
sched cntl(DEFER START); 
while (udptr-»udcount » 0) ( 
pkt = udptr->udqueue [udptr->udhead++] ; 
if (udptr->udhead >= UDP_SLOTS) { 
udptr->udhead = 0; 
} 
freebuf((char *)pkt); 
udptr->udcount--; 
} 
udptr->udstate = UDP_FREE; 
Sched cntl(DEFER STOP); 
return OK; 
H 
} 
return SYSERR; 
} 


udp_init 初始 化 函数 最 容易 理解 。 启 动 时 系统 调用 udp_init，udp_init 设置 每 个 UDP 表 项 的 状态 以 
表明 该 表 项 是 未 被 使 用 的 。 
udp_in HHF UDP 报 文 的 数据 包 到 达 时 ，netin 进程 调用 函数 udp_in。 全 局 指针 currpkt 指向 到 达 的 
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数据 包 。udp_in 搜索 UDP 表 来 判断 表 项 与 当前 数据 包 的 IP 地 址 和 端口 号 是 否 匹 配 。 如 果 不 匹配 ， 直 接 
将 数据 包 于 掉 一 一 udp_in 返回 ，netin 将 使 用 同一 个 缓冲 区 来 读 取 下 一 个 数据 包 。 如 果 匹 配 ，udp_in 就 将 
到 达 的 数据 包 插入 与 表 项 相关 联 的 队列 中 。 如 果 队 列 已 满 ，udp_in 就 返回 ,数据 包 将 被 丢弃 ,缓冲 区 将 
用 来 读 取 下 一 个 数据 包 。 当 udp_in 将 数据 包 插入 队列 中 时 ， 它 检查 是 否 有 进程 正在 等 待 到 达 的 数据 包 
(查看 UDP_RECV 的 状态 ) ， 如 果 有 进程 正在 等 待 数据 包 ， 就 给 等 待 进程 发 送 一 个 报 文 。 注 意 ， 只 能 有 一 
个 进程 在 等 待 表 项 。 如 果 有 多 个 进程 需要 使 用 表 项 来 进行 通信 ， 它 们 之 间 必 须 协 调 。 

udp_register ”应 用 程序 在 使 用 UDP 进行 通信 前 ， 必 须 调 用 udp_register 来 指明 一 个 特定 的 端口 ， 应 
用 程序 利用 该 端口 传 出 接收 的 数据 包 。 通 过 指明 一 个 远程 IP 地 址 ， 应 用 程序 可 以 充当 客户 端 ， 应 用 程 
序 还 可 以 充当 从 任意 发 送 者 那里 接收 数据 包 的 服务 器 。udp_register 负责 分 配 UDP 表 项 ， 在 表 项 中 记录 
远程 和 本 地 协议 端口 号 和 TP 地 址 信息 ， 并 创建 一 个 保存 到 达 的 数据 包 的 队列 。 

udp_recv ” 当 注 册 了 一 个 本 地 端口 号 后 ， 应 用 程序 可 以 调用 udp_recv 从 表 项 中 提取 数据 包 。 调 用 
的 参数 指明 远程 端口 号 和 IP 地 址 ， 以 及 本 地 端口 号 。 在 udp_recv 的 调用 中 指明 的 这 3 项 信息 必须 与 表 
项 中 的 这 些 信息 匹配 (本 地 和 远程 端口 号 以 及 IP 地 址 必须 是 以 前 注册 过 的 )。udp_recv 使 用 与 ARP 相 
类 似 的 范式 。 如 果 没 有 数据 包 在 等 待 〈( 表 项 的 队列 是 空 的 ) ， 那 么 udp_recv 就 阻塞 ， 等 待 一 段 时 间 ， 
该 时 间 由 上 次 的 调用 参数 指定 。 当 UDP 数据 包 到 达 时 ，netin 调用 udp_in。udp_in 中 的 代码 可 以 找到 
UDP 表 中 合适 的 表 项 ， 如 果 有 一 个 应 用 程序 处 于 等 待 状态 ，udp_in 就 给 等 待 进程 发 送 一 个 报 文 。 如 果 
数据 包 在 指定 的 时 间 内 到 达 ，udp_recv 就 将 UDP 数据 复制 到 调用 者 的 缓冲 区 并 返回 UDP 数据 的 长 度 。 
如 果 数 据 包 到 达 之 前 定时 器 已 经 超时 ，udp_recv 就 返回 TIMEOUT。 

udp_recvaddr ” 当 进 程 充当 服务 器 的 角色 时 ， 它 必须 知道 与 它 通信 的 客户 端的 地 址 。 服 务 器 进程 调 
FH udp_recvaddr, udp recvaddr 和 udp. reev 除了 返回 值 不 同 外 ， 其 他 功能 类 似 ，udp_recvaddr 的 返回 值 
不 仅 包含 传人 的 数据 包 还 包含 发 送 者 的 地 址 。 服 务 器 可 以 使 用 该 地 址 来 发 送 应 答 消息 。 

udp_send ”进程 调用 udp_send 发 送 UDP 报 文 。 输 入 参数 指明 发 送 的 数据 包 的 远程 和 本 地 协议 端口 
号 ,以 及 本 地 和 远程 地址 、 报 文 的 内 存 地 址 、 报 文 的 长 度 。udp_send 创建 一 个 以 太 网 数据 包 ， 该 数 
据 包 包含 一 个 携带 指定 UDP 报 文 的 四 数据 报 。 注 意 ， 必 须 使 用 有 效 的 地 址 和 端口 号 ， 因 为 udp_send 
只 是 将 信息 复制 到 数据 包 而 不 去 校 验 信息 是 否 有 效 。 

udp_release ” 当 进 程 使 用 完 UDP 终端 后 ， 该 进程 调用 udp_release 释放 表 项 。 如 果 数 据 包 在 表 项 队 
列 中 ,那么 udp_release 在 释放 表 项 前 会 将 每 个 数据 包 返 回 给 缓冲 池 。 


17.9 互联 网 控制 报 文 协议 


Xinu 只 处 理 ping 程序 中 的 两 种 报 文 类 型 来 实现 ICMP: ICMP 回 显 请 求 和 ICMP 回 显 应 答 。 尽 管 只 
有 两 种 消息 类 型 ， 但 代码 还 是 有 7 个 主要 函数 : icmp_init、icmp_inicmp_out icmp_register, icmp_send, 
icmp_recv 和 icmp_release。 

与 其 他 协议 栈 相 比 ， 网 络 输入 函数 调用 icmp_init 对 ICMP 初始 化 。 当 ICMP 数据 包 到 达 时 ， 网 络 输 
人 进程 调用 icmp_in 来 进行 处 理 ， 应 用 进程 调用 icmp_register 来 注册 它 使 用 的 远程 IP 地 址 ， 然 后 调用 
iemp_send 发 送 ping 请 求 ， 调 用 iemp_reev 接收 应 答 。 最 后 ， 在 完成 任务 后 ， 应 用 程序 调用 icmp_release 
释放 远程 卫 地 址 ， 并 允许 其 他 进程 使 用 它 。 

虽然 在 ICMP 的 代码 中 没有 表现 出 来 ,但 这 些 函 数 遵循 了 与 UDP 函数 相同 的 通用 结构 。 发 出 的 
ping 数据 包 中 的 标识 字段 是 ping 表 的 索引 。 当 应 答 到 达 时 ， 应 答 将 包含 相同 的 标识 ，icmp_in 使 用 它 作 
为 数组 的 索引 。 因 此 ， 与 UDP 不同 ，ICMP 代码 不 需要 搜索 表 。 当 然 ， 仅 用 标识 字段 是 不 够 的 : 在 标 
识 了 表 项 后 ，icmp_in 就 验证 应 答 中 的 全 源 地 址 是 否 与 表 项 中 的 IP 地 址 相 匹配 。 

icmp_out 作为 一 个 单独 的 进程 运行 。icmp_out 使 用 ARP 解析 目的 他 地 址 ， 并 通过 以 太 网 发 送 数据 
包 。 回 忆 前 面 的 讨论 可 知 ， 即 使 在 ICMP 输出 请 求 的 icmp_out 进程 阻塞 等 待 ARP 应 答 的 情况 下 ， 也 需 
要 单独 的 进程 来 确保 netin 可 以 继续 运行 。 





日 ”代码 可 在 网 站 xinu. cs. purdue. edu 中 获得 。 


17.10 ”动态 主机 配置 协议 
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在 启动 时 ， 计 算 机 必须 获得 自己 的 TP 地 址 和 默认 路 由 器 的 IP 地址。 这 种 用 于 在 启动 时 获得 信息 


的 协议 称 为 动态 主机 配置 协议 (DHCP, Dynamic Host Configuration Protocol) 。 虽 然 DHCP 数据 包 包含 了 


许多 字段 ， 但 基本 的 数据 包 交 换 是 直接 的 。 一 台 称 为 主机 (host) 的 计算 机 广播 DHCP Discover 报 文 。 
在 本 地 网 络 中 的 DHCP 服务 器 通过 发 送 DHCP Offer 报 文 来 应 答 ， 该 报 文 包含 主 机 的 IP 地 址 、 本 地 网 络 


的 32 位 子 网 掩 码 和 默认 路 由 器 的 地 址 。 


当 系统 启动 时 。 应 用 程序 调用 getlocalip 来 获取 本 地 IP 地 址 。 如 果 IP 地 址 在 之 前 已 经 获得 ， 就 仅 
仅 返 回 该 下 值 ; 如 果 主 机 的 卫 地 址 是 未 知 的 ，getlocalip 就 使 用 DHCP 来 获得 地 址 。 程 序 从 创建 并 发 送 


DHCP Discover 报 文 开 始 ， 然 后 使 用 udp_recv 来 等 待 应 答 。 


文件 dhep. h 定义 DHCP 报 文 的 结构 。 整 个 DHCP 报 文 装载 在 UDP 报 文 的 有 效 载荷 中 ， 然 后 装载 在 


下 数据 报 中 ， 再 装载 在 以 太 网 数据 包 中 。 


/* dhcp.h - Definitions related to DHCP */ 
#define DHCP 


#pragma pack(2) 
struct dhcpmsg ( 


byte dc bop; /* 
byte dc_htype; /* 
byte dc hlen; /* 
byte dc hops; g* 
uint32 dc xid; £* 
uint16 dc secs; f* 
uint16 dc flags; T al 
uint32 dc cip; £* 
uint32 dc yip; /* 
uint32 dc sip; g* 
uint32 dc gip; p* 
byte dc_chaddr [16] ; DE 
byte dc bootp[192]; y^ 
uint32 dc cookie; {* 
byte dc_opt [1024]; {* 

/* 

/* 


#pragma pack() 


extern struct netpacket *currpkt; /* 
extern bpid32 netbufpool; "ad 


#define PACKLEN sizeof(struct netpacket) 


extern uint32 myipaddr; Z* 


DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 
DHCP 


ptr to current input packet 
ID of net packet buffer pool 


IP address of computer 


bootp op i=reqg 2=reply 


hardware type 


hardware address length 


hop count 
xid 
seconds 
flags 


client IP address 

your IP address 

server IP address 
gateway IP address 
client hardware address 
bootp area (zero) 


cookie 


options area (large 
enough to hold more than 
reasonable options 


id 
ey 
E 
t7 
ey 
wy 
*/ 
7 
+y 
A 
ey 
aid 
#7 
*/ 
SZ 
A 
"7 


«yf 
ef 


ef 


TIUS IP 地 址 尚未 初始 化 ， 函 数 getlocalip 就 创建 并 发 送 DHCP Discover 消息 ， 等 待 接收 回应 ， 并 从 
应 答 中 提取 IP 地 址 、 子 网 掩 码 和 默认 路 由 器 地 址 ， 存 储 到 Netdata， 并 返回 IP 地 址 。 此 段 代码 在 dhcp.¢ 中 : 


/* dhcp.c - getlocalip */ 


#include <xinu.h> 


363 
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uint32 


{ 


第 17 章 最 小 互联 网 协议 栈 
getlocalip (void) 


struct dhcpmsg dmsg; 


struct dhcpmsg dmsg2; 
uint32 xid; 

int32 i; 

int32 len; 

char *optptr; 

char *eop; 

int32 msgtype; 
uint32  addrmask; 
uint32  routeraddr; 


if (NetData.ipvalid) ( 


return NetData.ipaddr; 


) 


holds outgoing DHCP discover 
message 

holds incoming DHCP offer 

and outgoing request message 

xid used for the exchange 

retry counter 

length of data read 

pointer to options area 

address of end of packet 

type of DCHP message 

address mask for network 

default router address 


already have an IP address 


udp register(0, UDP DHCP SPORT, UDP DHCP CPORT); 
memcpy (&xid, NetData.ethaddr, 4); 


/* 


use 4 bytes from MAC as XID 


/* handcraft a DHCP Discover message in dmsg */ 


dmsg.dc_bop = 0x01; 
dmsg.dc htype = 0x01; 
dmsg.dc hlen - 0x06; 
dmsg.dc hops - 0x00; 
dmsg.dc xid - xid; 
dmsg.dc secs - 0x0000; 
dmsg.dc flags - 0x0000; 
dmsg.dc cip - 0x00000000; 
dmsg.dc yip - 0x00000000; 
dmsg.dc sip - 0x00000000; 
dmsg.dc gip - 0x00000000; 


is 
/* 
/[* 
/* 
/* 
/* 
/* 
/[* 
/* 
/* 
/* 


memset (&dmsg.dc chaddr,'N0',16);/* 
memcpy (&dmsg.dc_chaddr, NetData.ethaddr, ETH ADDR LEN); 
memset (&dmsg.dc bootp,'N0',192) ;/* 


dmsg.dc cookie - 0x63825363; 
dmsg.dc opt[0] = Oxff & 53; 
dmsg.dc opt[1] = Oxff & 1; 
dmsg.dc opt[2] = Oxff & 1; 
dmsg.dc opt[3] = Oxff & 0; 
dmsg.dc opt[4] = Oxff & 55; 
dmsg.dc opt[5] = Oxff & 2; 
dmsg.dc opt[6] = Oxff & 1; 
dmsg.dc opt(7] = Oxff & 3; 
dmsg.dc opt[8] = Oxff & 0; 
dmsg.dc opt[9] = Oxff & 0; 
dmsg.dc_opt[10]= Oxff & 0; 
dmsg.dc opt[11]2 Oxff & 0; 
len - 


/* 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 
/* 


Outgoing request 
hardware type is Ethernet 
hardware address length 
Hop count 

xid (unique ID) 

seconds 

flags 

Client IP address 

Your IP address 

Server IP address 
Gateway IP address 
Client hardware address 


zero the bootp area 
Magic cookie for DHCP 


DHCP message type option 
option length 

DHCP Dicover message 
Options padding 

DHCP parameter request list 
option length 

request subnet mask 

request default router addr. 


options padding 
options padding 
options padding 
options padding 


(char *)&dmsg.dc opt[11] - (char *)&dmsg + 1; 


udp send(IP BCAST, UDP DHCP SPORT, IP THIS, UDP DHCP CPORT, 
(char *)&dmsg, len); 


Xy 
*/ 
u 
XJ 
*/ 
*7 
*/ 
wf 
*/ 
#4 
n 
*/ 


*/ 


*/ 


ti 
* 
"V 
* 
iz 
*/ 
*/ 
wh 
wf 
ud 
*/ 
Ey 


ay. 
*/ 


ha 
*/ 
f 
xy 
*/ 
*J 
*/ 
*/ 


my 
i 
i 
*j4 
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/* Read 3 incoming DHCP messages and check for an offer or * 
JE wait for three timeout periods if no message arrives. */ 


for (i=0; i<3; i++) { 
if ((len-udp recv(0, UDP DHCP SPORT, UDP_DHCP_CPORT, 
(char *)&dmsg2, sizeof(struct dhcpmsg), 
3000)) == TIMEOUT) ( 


continue; 


/* Check that incoming message is a valid response (ID */ 
/* matches our request) ay 


if ( (dmsg2.dc xid l= xid) ) { 
continue; 


eop = (char *)&dmsg2 + len - 1; 
optptr - (char *)&dmsg2.dc opt; 
msgtype - addrmask - routeraddr - 0; 
while (optptr « eop) ( 


switch (*optptr) ( 


case 53: /* message type */ 
msgtype = Oxff & *(optptr+2); 
break; 
case 1: /* subnet mask */ 
memcpy (&addrmask, optptr+2, 4); 
break; 
case 3: /* router address */ 
memcpy (&routeraddr, optptr+2, 4); 
break; 
} 
optptr++; /* move to length octet */ 


optptr += (0xff & *optptr) + 1; 


if (msgtype == 0x02) { /* offer - send request */ 
dmsg2.dc opt[0] = Oxff & 53; 
dmsg2.dc opt[1] = Oxff & 1; 
dmsg2.dc opt[2] = Oxff & 3; 
dmsg2.dc bop - 0x01; 
udp send(IP BCAST, UDP DHCP SPORT, IP THIS, 
UDP DHCP CPORT, (char *)&dmsg2, 
sizeof(struct dhcpmsg) - 4); 


) else if (dmsg2.dc opt[2] != 0x05) ( /* if not an ack*/ 
continue; /* skip it ut d 
} 
if (addrmask != 0) { 
NetData.addrmask = addrmask; 
} 
if (routeraddr != 0) { 
NetData.routeraddr = routeraddr; 
} 
NetData.ipaddr = dmsg2.dc_yip; 
NetData.ipvalid = TRUE; 
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udp_release(0, UDP_DHCP_SPORT, UDP DHCP CPORT); 
return NetData.ipaddr; 
oe failed to get response\r\n") ; 
udp_release(0, UDP_DHCP_SPORT, UDP DHCP CPORT); 
return (uint32)SYSERR; 
) 
DHCP 服务 器 通过 发 送 请 求 信息 来 响应 最 初 的 Discover 报 文 ， 当 它 接收 到 应 答 时 ，getlocalip 检查 报 
文 的 选项 区 域 。DHCP 因为 携带 信息 的 选项 而 不 同 寻常 。 特 别 地 ，DHCP 报 文 的 类 型 以 及 某 些 计算 机 系 
统 用 于 初始 化 网 络 参 数 的 信息 都 存储 在 选项 区 域内 。 其 中 的 3 个 选项 是 我 们 的 实现 关键 : 选项 53 定义 
DHCP 报 文 的 类 型 、 选 项 1 指定 本 地 网 络 使 用 的 子 网 掩 码 、 选 项 3 指定 默认 路 由 器 的 地 址 。 如 果 有 选项 
存在 ，getlocalip 就 可 以 从 应 答 中 选择 需要 的 信息 ， 为 后 续 的 函数 调用 存储 信息 ， 并 将 IP 地 址 返回 给 函 
数 调用 者 。 
关于 DHCP 的 细节 超出 本 书 的 讨论 范围 。 然 而 要 明白 ，DHCP 使 用 UDP 接口 的 方式 与 其 他 应 用 程 
序 是 一 样 的 。 即 在 通信 开始 前 ，getocalip 必须 调用 udp_register 记录 DHCP 将 要 使 用 的 端口 。 一 旦 记录 
了 端口 ，getlocalip 就 创建 一 个 DHCP Discover 报 文 并 调用 udp_send 广播 这 个 报 文 。DHCP Discover jk X 
引发 一 个 DHCP 服务 器 的 应 答 ， 系 统 则 从 应 答 中 获得 它 的 下 地 址 。 


17.11 Ws 
本 章 描述 的 是 互联 网 协议 最 简略 的 实现 。 很 多 细节 都 省 略 了 ， 代 码 也 缩减 了 很 多 。 比 如 ， 在 我 们 
的 实现 里 ， 用 来 定义 报 文 格式 的 结构 将 多 层 协 议 栈 结合 起 来 ， 且 假设 底层 网 络 总 是 以 太 网 。 所 以 ， 不 
能 把 这 里 的 代码 看 成 是 一 个 典型 协议 的 实现 ， 也 不 能 假设 相同 的 结构 对 一 个 完整 的 协议 栈 会 有 效 。 
不 过 ,除了 它 的 局 限 性 外 ， 本 章 代 人 码 阐 述 了 计时 操作 的 重要 性 。 特 别 是 ， 定 时 接收 函数 的 运用 使 
整个 代码 结构 变 得 简单 ， 使 整个 操作 变 得 更 容易 理解 。 如 果 这 个 系统 没有 提供 定时 接收 ， 那 么 就 将 需 
要 更 多 的 进程 一 一 一 个 进程 实现 计时 器 功能 ， 另 一 个 进程 处 理 响应 。 





17.12 总 结 


即使 小 型 嵌入 式 系 统 也 使 用 互联 网 协议 进行 通信 。 因 此 ， 大 多 数 操作 系统 都 包括 称 为 协议 栈 的 
软件 。 

ASEPTIC SCH IP, UDP, ICMP, ARP 和 DHCP 在 以 太 网 上 运行 的 有 限 版 本 的 最 小 协议 栈 。 以 上 
的 协议 都 是 紧密 联系 的 ，ICMP 和 UDP 报 文 都 在 IP 数据 报 中 ，DHCP 报 文 在 UDP 的 数据 包 中 。 

为 了 适应 异步 数据 包 传输 ， 我 们 的 协议 使 用 网 络 输入 进程 netin。netin 进程 重复 地 读 取 以 太 网 数据 
包 ， 验 证 数据 包头 ， 使 用 数据 包头 信息 来 决定 怎样 处 理 数据 包 。 当 ARP 数据 包 到 达 时 ，netin 调用 arp_ 
in 处 理 数据 包 ; 当 UDP 数据 包 到 达 时 ，netin 调用 udp_in 处 理 数据 包 ; 当 ICMP 数据 包 到 达 时 ，netin 调 
用 iemp_in 处 理 数 据 包 。 对 于 其 他 数据 包 ，netin 则 会 忽略 。 在 接收 数据 包 时 ， 我们 的 实现 允许 进程 指 
定 等 待 数据 包 到 达 的 最 长 时 间 。 超 时 机 制 可 以 用 来 实现 重 发 : 如 果 应 答 超时 到 达 ， 程 序 就 要 求 重 发 。 


练习 

17.1 重 写 代码 以 消除 对 单独 ICMP 输出 进程 的 需要 。 提 示 : 当 APR 应 答 到 达 时 ， 维 护 一 个 队列 用 来 输出 
IP 数据 包 以 及 与 之 对 应 的 ARP 表 项 并 且 安 排 要 发 送 的 数据 包 。 

17.2 UDP 函数 要 求 调用 者 指定 终端 信息 ， 如 了 全 地 址 和 协议 端口 号 。 重 写 代 码 以 改变 这 个 范例 : 让 udp_ 
register 返回 表 中 条 目的 索引 ， 加 入 一 些 其 他 函数 ， 如 udp_recv 将 索引 当做 参数 。 

17.3 使 用 计时 器 进程 替代 recvtime 来 重新 设计 UDP 协议 。 需 要 多 少 个 进程 ?解释 之 。 

17.4 Xinu 在 抽象 设备 和 硬件 设备 中 使 用 设备 范式 。 重 写 UDP 代码 以 使 用 设备 范式 ， 其 中 进程 调用 UDP 
主 设备 上 的 open 来 指定 协议 端口 和 TP 地 址 信息 ， 并 接收 用 于 通信 的 伪 设 备 描述 符 。 

17.5 练习 17.4 中 的 设备 范式 能 够 处 理 所 有 的 ICMP 吗 ? 如果 问 题 限定 在 ICMP 回 显 (如 ping) ， 那 么 答案 
会 不 会 改变 ? 解释 之 。 
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我 的 目标 坚定 不 移 : B+, KF, AM, BKK. 
— —Alfred, Lord Tennyson 


18.1 引言 


前 面 的 章节 解释 了 LO 设备 和 设备 驱动 的 结构 。 第 16 章 介绍 了 面向 块 的 设备 如 何 使 用 DMA, JF 
给 出 了 一 个 以 太 网 驱动 的 例子 。 

本 章 讨论 辅助 存储 设备 (如 磁盘 或 者 硬盘 ) 的 设备 驱动 的 设计 ， 侧 重 于 基本 的 数据 传输 操作 ， 第 
19 章 介绍 系统 的 高 层 如 何 使 用 磁盘 硬件 来 提供 文件 和 目录 。 


18.2 磁盘 抽象 


磁盘 硬件 提供 了 一 种 存储 机 制 的 基本 抽象 模型 ， 该 模型 具有 以 下 的 特点 。 

e 非 易 失 性 (nonvolatile): 即使 失去 电源 ， 数 据 仍然 存在 。 

© 面向 块 (block-oriented) : 接口 提供 了 读 、 写 固定 大 小 数据 块 的 能 力 。 

e 多 次 使 用 (multi-use): 块 可 以 被 读 、 写 多 次 。 

© 随机 存 取 (random-access) : 块 可 以 以 任何 顺序 访问 。 

与 第 16 章 所 描述 的 以 太 网 硬件 一 样 ， 磁 盘 硬 件 通常 使 用 直接 内 存 存 取 (DMA) 机 制 来 实现 数据 
传输 同时 不 引起 CPU 中 断 。 与 以 太 网 驱动 一 样 ， 磁 盘 驱 动 不 需 要 了 解 和 检查 数据 块 里 的 内 容 。 相 反 ， 
驱动 只 将 整个 磁盘 视 为 由 一 个 数据 块 构成 的 数组 。 


18.93 磁盘 操作 驱动 支持 


在 磁盘 设备 驱动 中 ， 和 磁盘 由 固定 大 小 的 数据 块 组 成 ， 可 以 通过 以 下 3 种 基本 操作 来 随机 存 取 数 
据 块 : 

。 提取 (fetch): 将 磁盘 指定 位 置 的 数据 块 复制 到 指定 内 存 中 。 

o 存储 (store): 将 内 存 数据 复制 到 磁盘 上 指定 的 数据 块 上 。 

© 搜索 (seek): 将 磁头 移动 到 磁盘 指定 的 块 。 搜 索 操 作对 于 机 电 设 备 ( 如 磁盘 ) 是 非常 重要 的 ， 
将 磁头 移动 到 未 来 可 能 需要 的 位 置 是 磁盘 优化 的 一 个 重要 机 制 。 不 过 ， 随 着 固态 磁盘 变 得 更 加 广泛 ， 
搜索 操作 的 重要 性 也 许 正 在 下 降 。 

磁盘 的 块 大 小 由 磁盘 上 的 肩 区 决定 。 工 业 上 已 经 把 512 字 节 作为 块 的 事实 标准 ， 在 本 章 中 ， 我 们 
假定 块 的 大 小 为 512 FHS, 


18.4 ” 块 传输 和 高 层 VO 函数 


由 于 硬件 提供 了 块 传输 ， 所 以 就 可 以 定义 读 (read) AIH (write) 操作 的 接口 来 传输 整个 数据 块 。 
这 里 的 问题 是 ， 如 何在 现 有 高 层 的 LO 操作 中 提供 块 地 址 。 我 们 可 以 使 用 搜索 : 这 要 求 在 调用 读 、 写 
接口 来 访问 数据 块 之 前 调用 一 次 搜索 操作 将 磁头 移动 到 某 个 块 上。 不幸 的 是 ， 要 求 用 户 在 数据 传输 之 
前 调用 搜索 是 策 拙 和 易 出 错 的 。 因 此 ， 为 了 保持 接口 的 简单 易 用 ， 我 们 将 扩展 读 和 写 操作 参数 的 语义 : 
假设 缓冲 区 足够 大 ， 可 以 放下 一 个 磁盘 块 的 数据 ， 并 用 第 三 个 参数 指定 块 号 。 例 如 ， 函 数 调用 : 
read (DISKO, buffer, 5) 
请 求 驱动 从 磁盘 上 的 第 5 个 数据 块 开 始 将 数据 块 读 到 内 存 中 。 





O 尽管 现代 的 磁盘 通常 使 用 大 小 为 4KB 的 基本 块 ， 但 硬件 提供 了 一 个 使 用 512B 块 的 接口 。 
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本 章 中 的 驱动 将 提供 基本 的 磁盘 操作 : 读 (read) 从 磁盘 将 单个 块 复制 到 内 存 ; (write) 把 内 
存 中 的 数据 复制 到 指定 的 磁盘 块 。 此 外 ， 本 驱动 还 具有 控制 (control) 功能 ， 包 括 格式 化 磁盘 〈 即 销 
毁 所 有 存储 的 数据 ) 和 同步 写 请 求 〈 如 确保 所 有 缓存 的 数据 已 经 写 信 磁盘) 。 


18.5 远程 磁盘 范式 

因为 E2100L 硬件 不 包括 本 地 磁盘 ， 所 以 本 章 介绍 的 是 遵循 远程 磁盘 范式 的 软件 。 远 程 磁盘 系统 提 
供与 本 地 磁盘 相同 的 抽象 ， 允 许 进程 读 、 写 磁盘 块 。 不 同 的 是 ， 远 程 磁盘 系统 通过 网 络 将 请 求 发 送 到 
另 一 台 正 在 运行 的 远程 磁盘 服务 器 上 ， 而 不 是 使 用 本 地 的 磁盘 硬件 。 

远程 磁盘 驱动 与 传统 的 磁盘 一 样 ， 驱 动 函 数 分 为 上 半 部 分 和 下 半 部 分 ， 这 两 部 分 通过 一 个 共享 数 
据 结构 进行 通信 。 远 程 磁盘 驱动 通过 网 络 服务 器 发 送 请 求 和 接收 响应 ， 并 使 用 高 优先 级 进程 进行 通信 ， 
而 不 是 使 用 DMA 硬件 来 实现 下 半 部 分 功能 ， 图 18-1 说 明了 这 种 结构 。 


共享 的 数据 结构 


提供 下 半 部 分 功能 的 进程 — d 









远程 服务 器 进行 网 络 通信 


图 18-1 远程 磁盘 驱动 的 组 织 结构 


与 传统 的 磁盘 驱动 一 样 ， 在 我 们 例子 中 的 共享 数据 结构 包含 了 两 个 关键 项 : 

。 最 近 存 取 块 的 缓存 。 

。 挂 起 的 请 求 链 表 。 

最 近 存 取 块 的 缓存 ”因为 磁盘 操作 比 处 理 器 慢 很 多 ， 所 以 磁盘 驱动 必须 进行 优化 以 避免 不 必要 的 
数据 传输 。 磁 盘 的 主要 优化 技术 是 在 共享 数据 区 使 用 缓存 (cache) 。 缓 存 存储 最 近 访 问 的 数据 块 ， 这 
样 同一 块 内 的 后 续 操 作 就 可 以 在 缓存 的 副本 中 进行 。 例 如 ， 如 果 用 户 编辑 一 个 文档 ， 该 文档 所 在 的 磁 
盘 块 很 可 能 就 在 缓存 中 ， 这 意味 着 文档 编辑 应 用 程序 的 启动 速度 远 远 超 过 了 从 硬盘 读 取 块 的 速度 。 

挂 起 的 请 求 链表 “与 传统 的 驱动 一 样 ， 远 程 磁盘 系统 允许 多 个 进程 访问 磁盘 ， 实 现 同步 读 操作 和 
异步 写 操作 。 也 就 是 说 ， 当 驱动 读数 据 块 时 ， 进 程 必须 进入 等 待 状态 直到 需要 的 数据 被 提取 。 当 它 写 
一 个 块 时 ， 进 程 并 不 阻塞 一 一 驱动 将 需要 的 数据 块 副本 放 到 请 求 链表 中 ， 并 允许 进程 继续 执行 。 下 半 
部 分 进程 处 理 与 远程 服务 器 的 通信 ， 不断 处 理 请 求 队列 中 的 任务 ， 并 执行 指定 的 操作 。 因 此 ， 数 据 将 
在 之 后 的 某 个 时 候 写 人 到 磁盘 中 。 


18.6 磁盘 操作 的 语义 

虽然 磁盘 驱动 可 以 使 用 缓存 和 延迟 操作 等 优化 方法 ， 但 是 磁盘 驱动 必须 始终 保证 同步 接口 的 正确 
性 。 也 就 是 说 ， 驱 动 必须 总 是 返回 系统 最 后 写 和 的 数据 。 

如 果 给 定 块 上 的 读 操 作 和 写 操作 可 以 表示 为 以 下 序列 : 

OP; 30P2,0P3 , *** , OP, 

如 果 op, 是 对 存储 块 i 的 读 操 作 ， 则 磁盘 驱动 返回 的 必须 是 该 语句 块 在 op, 操作 下 所 写 人 的 数据 ， 其 中 
k 是 写 操作 顺序 号 中 最 大 的 值 ， 并 且 小 于 上 (BIE op, 和 op, 之 间 的 所 有 操作 都 是 读 操 作 ) 。 为 完善 这 个 
定义 ,我 们 假定 在 系统 启动 前 的 时 刻 有 一 个 隐 含 的 写 操作 。 这 样 ， 如 果 系 统 在 调用 写 块 操作 前 企图 读 
块 ， 那么 驱动 将 返回 磁盘 上 的 任何 数据 。 

我 们 将 以 上 概念 称 为 最 后 写 入 语义 (last-write semantics) : 

磁盘 驱动 可 以 使 用 缓存 等 技术 优化 性 能 ， 但 需 保证 驱动 符合 最 后 写 入 语义 。 
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示例 驱动 使 用 排队 技术 来 确保 最 后 写 人 语义 : 请 求 链表 是 FIFO 队列 。 也 就 是 : 
将 新 的 项 添加 到 请 求 队列 的 末尾 ， 前 半 部 分 进程 不 断 地 选择 并 执行 队列 头 的 项 。 
因为 项 总 是 添加 到 队 尾 ， 所 以 磁盘 驱动 处 理 请 求 的 顺序 和 请 求 产 生 的 顺序 相同 。 这 样 ， 如 果 进 程 
A 对 5 号 存储 块 的 数据 进行 读 ， 而 进程 B 在 之 后 对 5 号 存储 块 进行 写 ， 那 么 这 两 个 请 求 的 执行 将 按照 
队列 中 的 顺序 正确 执行 。 读 请 求 先 执行 ， 之 后 执行 写 请 求 。 
我 们 会 发 现 这 样 的 队列 规则 可 以 扩展 到 缓存 中 : 在 搜索 缓存 时 ， 驱 动 函 数 总 是 从 缓存 队列 的 头 进 
行 。 我 们 的 代码 将 依赖 于 这 个 规则 以 保证 进程 接收 的 数据 符合 最 后 写 和 人 语义。 


18.7 ”驱动 数据 结构 的 定义 

文件 rdisksys. h 定义 远程 磁盘 系统 中 使 用 的 常量 和 数据 结构 。 该 文件 还 定义 了 磁盘 缓冲 区 的 格式 。 
每 个 缓冲 区 包含 一 个 指定 缓冲 区 中 存储 磁盘 块 大 小 的 头 部 和 用 来 连接 请 求 链 表 、 缓 存 或 空闲 链表 的 字 
段 。 此 外 ,文件 中 还 定义 了 设备 控制 块 的 内 容 和 发 到 远程 服务 器 的 信息 格式 。 


/* rdisksys.h - definitions for remote disk system pseudo-devices */ 


#ifndef Nrds 
#define Nrds 1 
#endif 


/* Remote disk block size */ 
#define RD_BLKSIZ 512 
/* Global data for the remote disk server */ 


#ifndef RD_SERVER_IP 
#define RD_SERVER_IP *255..255..255.255* 
#endif 


#ifndef RD SERVER PORT 
#define RD SERVER PORT 33124 
#endif 


*ifndef RD LOC PORT 

#define RD LOC PORT 33124 /* base port number - minor dev */ 
[E number is added to insure */ 
yx that each device is unique */ 

#endif 


/* Control block for remote disk device */ 


#define RD_IDLEN 64 /* Size of a remote disk ID “yf 
#define RD_BUFFS 64 /* Number of disk buffers £/ 
#define RD STACK 8192 /* Stack size for comm. process */ 
#define RD PRIO 200 /* Priorty of comm. process bard 


/* Constants for state of the device */ 


#define RD_FREE 0 /* device is available wy 
#define RD_OPEN x /* device is open (in use) «i 
#define RD_PEND 2 /* open is pending #7 


/* Operations for request queue */ 


#define RD_OP_READ 1 /* Read operation on req. list */ 
#define RD OP WRITE 2 /* Write operation on req. list */ 
#define RD OP SYNC 3 /* Sync operation on req. list */ 


[374] 


218 


第 18 章 远程 磁盘 驱动 


/* Status values for a buffer */ 


#define RD_VALID 
#define RD_INVALID 


/[* 
/[* 


Buffer contains valid data 
Buffer does not contain data 


/* Definition of a buffer with a header that allows the same node to be 


/* used as a request on the request queue, 
/* mode on the free list of buffers 


struct rdbuff 
struct 
struct 
int32 
int32 


uint32 
int32 
pid32 


char 


{ 

rdbuff 
rdbuff 
rd op; 


*rd next; 
*rd prev; 


rd refcnt; 


rd blknum; 
rd status; 


rd pid; 


rd block[RD BLKSIZ]; 


struct rdscblk { 
rd_state; 
rd_id[RD_IDLEN] ; 


int32 
char 
int32 


rd_seq; 


/* 
/* 
/[* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 


/* Request queue head and tail */ 


struct 
struct 
struct 
struct 


rdbuff 
rdbuff 
rdbuff 
rdbuff 


*rd rhnext; 
*rd rhprev; 
*rd rtnext; 
*rd rtprev; 


/* Cache head and tail */ 


/* 
/* 
/* 
/* 


/* 
/* 
/* 
/* 


/* 


/* 
/* 
/* 
/* 
/* 
/* 


struct rdbuff *rd_chnext; 
struct rdbuff  *rd chprev; 
struct rdbuff  *rd ctnext; 
struct rdbuff *rd_ctprev; 
/* Free list head (singly-linked) 
struct rdbuff  *rd free; 
pid32 rd comproc; 

sid32 rd availsem; 

sid32 rd reqsem; 

uint32 rd ser ip; 

uintl6 rd ser port; 

uint16 rd loc port; 

boo18 rd registered; 


extern struct 


/* Definitions 


rdscblk rdstab[]; 


of parameters used 


/[* 


/* 


an item in the cache, or a 


Request list node 

ptr to next node on a list 

ptr to prev node on a list 

operation - read/write/sync 

reference count of processes 
reading the block 

block number of this block 

is buffer currently valid? 

process that initiated a 
read request for the block 

space to hold one disk block 


state of device 
Disk ID currently being used 
next sequence number to use 


head of request queue: next 
and previous 

tail of request queue: next 
(null) and previous 


head of cache: next and 
previous 

tail of cache: next (null) 
and previous 


Xy 


ptr to free list 


process ID of comm. process 
semaphore ID for avail buffs 
semaphore ID for requests 
server IP address 

server UDP port 

local (client) UPD port 


wif, 
tf 


$y 
i 
*/ 


"i 
ad 
sy 
*/ 
*y 
*/ 
t 
y 
*/ 
* 
By 


*/ 
*/ 
a 


#/ 
my 


wey 
i d 


has UDP port been registered?*/ 


remote disk control block 


during server access */ 


*/ 
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#define RD_RETRIES 3 /* times to retry sending a msg */ 
#define RD_TIMEOUT 2000 /* wait two seconds for reply */ 


/* Control functions for a remote file pseudo device */ 


#define RDS_CTL_DEL 1 /* Delete (erase) an entire disk*/ 
#define RDS_CTL_SYNC 2 /* Write all pending blocks */ 


[BRK eee e e he e ee de de KK RIK IK KK KE IKK Fe e e e Fe de hehe ee de KK e e e de je kc ec eoe e ke ee cede ke ek ee RHI KK / 


/* Definition of messages exchanged with the remote disk server *7 
[BR e kk hehe e e hehe ke e eek e e ke he he e e he e be ek e ke he ee he he de He | 


/* Values for the type field in messages */ 


#define RD MSG RESPONSE 0x0100 /* Bit that indicates response */ 
#define RD MSG RREQ 0x0010 /* Read request and response i" 
#define RD MSG RRES (RD MSG RREQ | RD MSG RESPONSE) 
#define RD MSG | 0x0020 /* Write request and response */ 
#define RD MSG WRES (RD MSG WREQ | RD MSG RESPONSE) 
#define RD MSG OREQ 0x0030 /* Open request and response ay 
#define RD_MSG ORES (RD_MSG_OREQ | RD MSG RESPONSE) 
#define RD MSG CREQ 0x0040 /* Close request and response =] 
#define RD_MSG_CRES (RD_MSG_CREQ | RD_MSG_RESPONSE) 
#define RD MSG | 0x0050 /* Delete request and response */ 
#define RD_MSG_DRES (RD_MSG_DREQ | RD_MSG_RESPONSE) 
#define RD_MIN_REQ RD_MSG_RREQ /* Minimum request type ay 
#define RD_MAX REQ RD_MSG_DREQ /* Maximum request type Ted, 


/* Message header fields present in each message */ 


#define RD_MSG_HDR /* Common message fields * fX 
uintl6 rd type; /* message type IN 
uintl6 rd status; /* 0 in req, status in response */\ 
uint32 rd seq; /* message sequence number KAN 
char rd id[RD IDLEN]; /* null-terminated disk ID */ 


LERICI Fe He He IRA ORA AAA AIAR AIA IRA RE RE e e Re Ae Hehe de e Re ke RARA RARA AIAR | 


fe Header */ 

J[ Ce echec ce heh he hee ee e e e he he heh hehe hee e e kk e he he hh he ke e ke e ke kk ke hh e ke hc ke ke ecc kc ke e ei | 

/* The standard header present in all messages with no extra fields */ 

#pragma pack(2) 

Struct rd msg hdr ( /* header fields present in each*/ 
RD MSG HDR /* remote file system message */ 

m 

#pragma pack() 


[BRR RRR RRR HR KKK RRR ehe e RAI AIA e dee AIA RIA RITIRATI AIA FAI AIA ARIA RIA De He He He He He e e He He f 

pE Read wy 

f PC deed R RRR KER KKK RHR IRE RR IRE EKER IS EERE oko oe IRA IAT AAA AAA IAA IAA | 

#pragma pack(2) 

struct rd msg rreq { /* remote file read request */ 
RD_MSG_HDR /* header fields en d 
uint32 rd blk; /* block number to read t 
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}; 
#pragma pack() 


#pragma pack(2) 


struct rd msg_rres { /* remote file read reply 
RD_MSG_HDR /* header fields 
uint32 rd blk; /* block number that was read 
char rd data[RD BLKSIZ]; /* array containing one block 


}; 
#pragma pack () 


ard 
*/ 
*/ 
xj 


[RI IOI III e e He He e III III ICICI II e e He ICI e e e e e e IR TI IK III KK III KKK IA HHH / 


/[* Write */ 

[BERK ehe ke dee ede deck eee oe RIA KER AAA KATA EIA eee t sa A k e e Kk ek e e tk ek ke ee / 

*pragma pack(2) 

struct rd msg wreq { /* remote file write request LPA 
RD_MSG_HDR /* header fields Ey 
uint32 rd blk; /* block number to write sy 
char rd data[RD BLKSIZ]; /* array containing one block  */ 

}i 


#pragma pack() 
#pragma pack(2) 


struct rd msg wres { /* remote file write response wy 
RD MSG HDR /* header fields *y 
uint32 rd blk; /* block number that was written*/ 
}; 


#pragma pack() 


f FCR dee heck hehe e ee ehe KERR ER KEKE ERR e ehe he ke ee hehe e eee ee eee he de IAA ede ke ee dee deje e dee eek | 

p? Open ay 

[RR RRR KK RK HK IK IKK RIK KKK RRR ERIK RIK KIKI II HK e e dede I IK ICT I KK IK KK IR IKK ke eek KK | 

#pragma pack (2) 

struct rd_msg_oreq { /* remote file open request wy 
RD_MSG_HDR /* header fields my 

}; 

#pragma pack() 


#pragma pack (2) 
struct rd_msg_ores { /* remote file open response xf 
RD_MSG_HDR /* header fields ni i 


#pragma pack() 


[RRR e ee HH KIRK KIKI IKK RI deck eee oko eee ee dee dee eee dee e dee dee dee ede IA IK ERE EE | 

f* Close */ 

[RR RRR AAA RR RIK IR ehe eee ede ee oc III IAC ER TOK TETI TOR IKK TK IKK KKK IK KK I IATA] 

#pragma pack (2) 

struct rd_msg_creq { /* remote file close request *7 
RD MSG HDR /* header fields sr d 

}; 

#pragma pack() 


#pragma pack(2) 

struct rd msg cres ( /* remote file close response € 
RD MSG HDR /* header fields "d 

)s 

#pragma pack() 


[RRR IATA AIA Ok Rol ATTIRA AI IAA AO RA ARIA IR IORI IIR II IK IRR IR IIA / 
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p* Delete Ag 


[ICR IIR I LE LO LELE LE IR ICR RIOR ICR Lisi iii E 

#pragma pack(2) 

struct rd msg dreq t /* remote file delete request */ 
RD_MSG_HDR /* header fields sf 

Fe 

#pragma pack() 


#pragma pack (2) 

struct rd msg dres { /* remote file delete response */ 
RD_MSG_HDR /* header fields * 

ys 

#pragma pack() 


18.8 驱动 初始 化 (rdslnit) 


尽管 初始 化 的 设计 应 该 在 驱动 的 其 他 部 分 设计 完成 后 再 进行 ， 但 是 我 们 现在 就 对 初始 化 函数 进行 


分 析 ， 因 为 这 样 有 助 于 我 们 了 解 共 享 数 据 结构 。 文 件 rdsImit c 包含 了 驱动 初始 化 代码 : 


/* rdsInit.c - rdsInit */ 
#include «xinu.h» 


struct rdscblk rdstab[Nrds]; 


A 
devcall rdsInit ( 
struct dentry *devptr /* entry in device switch table */ 
) 
{ 
struct  rdscblk *rdptr; /* ptr to device contol block P" 
struct rdbuff  *bptr; /* ptr to buffer in memory wy 
/* used to form linked list */ 
struct rdbuff  *pptr; /* ptr to previous buff on list */ 
struct rdbuff  *buffend; /* last address in buffer memory*/ 
uint32 size; /* total size of memory needed */ 
fs buffers Lar 


/* Obtain address of control block */ 
rdptr = &rdstab[devptr-»dvminor]; 
/* Set control block to unused */ 


RD FREE; 
NULLCH; 


rdptr-»rd state 
rdptr-»rd id[0] 


Il 


/* Set initial message sequence number */ 
rdptr-»rd seq = 1; 
/* Initialize request queue and cache to empty */ 


rdptr-»rd rhnext - (struct rdbuff *) &rdptr-»rd rtnext; 
rdptr-»rd rhprev - (struct rdbuff *)NULL; 


rdptr-»rd rtnext - (struct rdbuff *)NULL; 
rdptr-»rd rtprev - (struct rdbuff *) &rdptr-»rd rhnext; 
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rdptr-»rd chnext (struct rdbuff *) &rdptr-»rd ctnext; 
rdptr-»rd chprev - (struct rdbuff *)NULL; 


tl 


rdptr-»rd ctnext = (struct rdbuff *) NULL; 
rdptr->rd_ctprev = (struct rdbuff *) &rdptr->rd_chnext; 


/* Allocate memory for a set of buffers (actually request ad 
/* blocks and link them to form the initial free list xf 


Size - sizeof(struct rdbuff) * RD BUFFS; 


bptr - (struct rdbuff *)getmem(size); 
rdptr-»rd free - bptr; 


if ((int32)bptr -- SYSERR) ( 
panic("Cannot allocate memory for remote disk buffers"); 


buffend = (struct rdbuff *) ((char *)bptr + size); 
while (bptr < buffend) { /* walk through memory */ 
pptr - bptr; 
bptr - (struct rdbuff *) 
(sizeof(struct rdbuff)+ (char *)bptr); 
pptr-»rd status - RD INVALID; /* buffer is empty È 
pptr-»rd next = bptr; /* point to next buffer */ 
} 
pptr->rd_next = (struct rdbuff *) NULL; /* last buffer on list */ 


/* Create the request list and available buffer semaphores */ 
rdptr-»rd availsem = semcreate(RD BUFFS); 
rdptr-»rd reqsem = semcreate(0); 


/* Set the server IP address, server port, and local port */ 


if ( dot2ip(RD SERVER IP, &rdptr-»-rd ser ip) == SYSERR ) { 
panic("invalid IP address for remote disk server"); 
) 


/* Set the port numbers */ 


I 


rdptr-»rd ser port 
rdptr-»rd loc port 


RD SERVER PORT; 
RD LOC PORT + devptr-»dvminor; 


/* Specify that the server port is not yet registered */ 


rdptr-»rd registered - FALSE; 
/* Create a communication process */ 


rdptr-»rd comproc - create(rdsprocess, RD STACK, RD PRIO, 
"rdsproc", 1, rdptr); 


if (rdptr-»rd comproc -- SYSERR) ( 
panic("Cannot create remote disk process"); 
} 


resume(rdptr-»rd comproc); 


return OK; 


j 
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除了 初始 化 数据 结构 外 ，rdsInit 还 实现 了 另外 3 个 重要 任务 。 首 先 ， 它 分 配 一 组 磁盘 缓冲 区 并 将 
其 链接 到 空闲 链表 ; 其 次 ， 它 创建 与 服务 器 通信 的 高 优先 级 进程 ; 最 后 ， 它 创建 两 个 用 来 控制 进程 的 
信号 量 。 信 号 量 rd_reqsem 用 于 保护 请 求 链表 。 信 和 号 量 从 0 开始 ， 每 当 有 一 个 新 的 请 求 添加 到 请 求 链表 
时 就 加 1。 通信 进程 在 从 链表 中 取出 数据 之 前 会 先 等 待 rd_reqsem 信号 量 ， 这 意味 着 如 果 链 表 为 空 ， 进 
程 将 被 阻塞 。 

另 一 个 信和 号 量 为 rd_availsem， 用 来 记录 可 用 的 缓冲 区 的 数量 〈 例 如 ， 空 闲 的 或 者 在 缓存 中 的 ) 。 最 
初始 ，RD_BUFFS 缓冲 区 都 在 空闲 链表 中 ，rd_availsem 的 值 等 于 RD_BUFFS。 当 需要 缓存 区 时 ， 调 用 
者 等 待 信号 量 。 不 在 缓存 中 的 所 有 缓冲 区 都 可 用 。 由 于 进程 正在 等 竺 数据， 缓冲 区 必须 驻 留 在 缓存 中 。 
后 面 我 们 将 看 到 缓存 和 信和 号 量 将 如 何 使 用 。 


18.9 上 半 部 打开 函数 ( rdsOpen ) 

远程 磁盘 服务 器 允许 多 客户 端 同时 访问 服务 器 。 每 个 客户 端 有 一 个 唯一 的 身份 标识 字符 串 以 使 服 
务 器 区 分 各 个 客户 端 。 示 例 代码 允许 用 户 通过 在 磁盘 设备 上 调用 打开 (open) 函数 来 指定 其 身份 标识 
字符 串 ， 而 不 是 用 某 个 硬件 值 ( 如 以 太 网 地 址 ) 作为 其 唯一 的 字符 串 。 将 身份 标识 符 (ID). 与 硬件 区 
分 开 的 最 大 好 处 是 可 移植 性 一 一 远程 磁盘 ID 可 以 绑 定 到 操作 系统 的 镜像 ， 这 意味 着 把 镜像 从 一 台 物 理 
计算 机 移动 到 另外 一 台 计 算 机 不 会 改变 系统 正在 使 用 的 磁盘 。 

当 进程 对 某 个 远程 磁盘 设备 调用 打开 (open) 函数 时 ， 第 二 个 参数 为 ID 字符 串 。 该 字符 串 将 被 复 
制 到 设备 控制 块 中 ， 只 要 设备 处 于 打开 状态 ， 此 ID 就 可 以 一 直 使 用 。 当 然 ， 我 们 可 以 关闭 远程 磁盘 设 
备 并 用 一 个 新 的 ID 重新 打开 它 (如 连接 到 另 一 个 远程 磁盘 上 ) 。 然 而 ， 对 于 多 数 系统 而 言 ， 我 们 期 望 


一 旦 打开 一 个 远程 磁盘 设备 就 永远 不 要 关闭 它 。 文 件 rdsOpen.c 包含 如 下 代码 : 
/* rdsOpen.c -  rdsOpen */ 


#include «xinu.h» 


devcall rdsOpen ( 


struct dentry  *devptr, /* entry in device switch table */ 
char *diskid, /* disk ID to use al À 
char *mode /* unused for a remote disk */ 
) 
{ 

struct rdscblk *rdptr; /* ptr to control block entry *7 
struct rd msg_oreq msg; /* message to be sent det 
struct rd msg ores resp; /* buffer to hold response a d 
int32 retval; /* return value from rdscomm */ 
int32 len; /* counts chars in diskid ara 
char *idto; /* ptr to ID string copy */ 
char *idfrom; /* pointer into ID string ia 


rdptr = &rdstab[devptr->dvminor] ; 


/* Reject if device is already open */ 

if (rdptr->rd_state != RD_FREE) { 
return SYSERR; 

} 

rdptr->rd_state = RD_PEND; 


/* Copy disk ID into free table slot */ 
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idto = rdptr-»rd id; 
idfrom = diskid; 
len = 0; 
while ( (*idto++ = *idfrom++) != NULLCH) { 
len++; 
if (len >= RD_IDLEN) { /* ID string is too long */ 
return SYSERR; 


/* Verify that name is non-null */ 


if (len == 0) { 
return SYSERR; 


/* Hand-craft an open request message to be sent to the server */ 


msg.rd_type = htons(RD_MSG_OREQ);/* Request an open ff 
msg.rd status = htons(0); 
msg.rd seq - 0; /* rdscomm fills in an entry €) 


idto = msg.rd_id; 
memset (idto, NULLCH, RD_IDLEN);/* initialize ID to zero bytes */ 


idfrom = diskid; 
while ( (*idto++ = *idfrom++) != NULLCH ) { /* copy ID to req. */ 


; 


/* Send message and receive response */ 


retval - rdscomm((struct rd msg hdr *)&msg, 
sizeof(struct rd msg oreq), 
(struct rd msg hdr *)&resp, 
sizeof(struct rd msg ores), 


rdptr ); 


/* Check response */ 


if (retval == SYSERR) ( 
return SYSERR; 
) else if (retval -- TIMEOUT) ( 
kprintf("Timeout during remote file open\n\r"); 
return SYSERR; 
) else if (ntohs(resp.rd status) !- 0) ( 
return SYSERR; 


/* Change state of device to indicate currently open */ 
rdptr-»rd state - RD OPEN; 


/* Return device descriptor */ 


return devptr-»dvnum; 


18.10 ”远程 通信 函数 (rdscomm ) 
rdsOpen 为 打开 本 地 远程 磁盘 设备 (local remote disk device) 的 一 步 ， 用 于 与 远程 服务 器 交换 报 文 。 
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它 把 打开 请 求 报 文 放 在 本 地 变量 msg 中 ， 并 调用 rdscomm 将 该 报 文 转发 给 服务 器 。rdscomm 的 参数 包括 
n... lee. 自 的 长 度 。rdscomm Lidia 的 报 文 发 送 给 服务 器 ， 


Apoie 答 有 效 ，rdscomm 就 返回 应 答 的 长 度 给 调用 者 ; 否则 ， 它 返回 SYSERR 以 指示 发 
EB, 或 者 返 x TIMEOUT 以 表明 未 收 到 应 答 。 文 件 rdscomm.e 包含 如 下 代码 : 
/* rdscomn.c -  rdscomm */ 


#include <xinu.h> 


/* /———————————————————————————————— 
* rdscomm - handle communication with a remote disk server (send a 
* request and receive a reply, including sequencing and 
* retries) 
Ws ea ea Sree ra ee od ee ee ee es Ce eS ee DI 
ai 
status  rdscomm ( 
Struct rd msg hdr *msg, /* message to send wp 
int32 mlen, /* message length Ef 
struct rd_msg_hdr *reply, /* buffer for reply tí 
int32 rlen, /* size of reply buffer my 
struct rdscblk *rdptr /* ptr to device control block */ 
) 
{ 
int32 Là /* counts retries EJ 
int32 retval; /* return value */ 
int32 seq; /* sequence for this exchange ul 
uint32 localip; /* local IP address = 
int16 rtype; /* reply type in host byte order*/ 
bool8 xmit; /* Should we transmit again? ef 


/* For the first time after reboot, register the server port */ 
if ( ! rdptr->rd_registered ) { 
retval = udp_register(0, rdptr->rd_ser_port, 


rdptr->rd_loc_port) ; 
rdptr->rd_registered = TRUE; 


if ( (int32) (localip = getlocalip()) == SYSERR ) { 
return SYSERR; 
/* Assign message next sequence number */ 


seq = rdptr->rd_seq++; 
msg-»rd seq = htonl (seq); 


/* Repeat RD_RETRIES times: send message and receive reply */ 
xmit = TRUE; 
for (i=0; i<RD_RETRIES; i++) { 

if (xmit) { 


/* Send a copy of the message */ 


retval = udp_send(rdptr->rd_ser_ip, rdptr-»rd ser port, 
localip, rdptr-»rd loc port, (char *)msg, mlen); 
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if (retval == SYSERR) { 
kprintf ("Cannot send to remote disk server\n\r"); 
return SYSERR; 
}: 
) else { 
xmit = TRUE; 
} 


/* Receive a reply */ 


retval = udp_recv(0, rdptr->rd_ser_port, 
rdptr-»rd loc port, (char *)reply, rlen, 
RD TIMEOUT); 


if (retval -- TIMEOUT) ( 
continue; 

) else if (retval -- SYSERR) ( 
kprintf("Error reading remote disk reply\n\r") ; 
return SYSERR; 

} 


/* Verify that sequence in reply matches request */ 


if (ntohl(reply-»rd seq) < seq) { 
xmit = FALSE; 
) else if (ntohl(reply-»rd seq) != seq) { 
continue; 


) 
/* Verify the type in the reply matches the request */ 


rtype = ntohs(reply-»rd type); 
if (rtype !- ( ntohs(msg-»rd type) | RD MSG RESPONSE) ) ( 
continue; 


) 
/* Check the status */ 


if (ntohs(reply-»rd status) != 0) { 
return SYSERR; 
} 


return 0K; 


} 
/* Retries exhausted without success */ 


kprintf("Timeout on exchange with remote disk server\n\r") ; 
return TIMEOUT; 
) 


rdscomm 包含 本 地 IP 地址 〈 使 用 UDP 协议 ) ， 给 下 一 个 报 文 分 配 序列 号 ， 然 后 进入 一 个 迭代 RD_ 
RETRIES 次 的 循环 。 每 次 迭代 ，rdscomm 调用 udp_send 将 报 文 的 副本 传送 给 服务 器 ， 并 调用 udp_recv 
来 接收 应 答 。 如 果 应 答 到 达 ，rdscomm 就 验证 应 答 的 类 型 是 否 与 请 求 的 类 型 相 匹 配 ， 应 答 的 序列 号 是 
否 与 已 发 送 的 序列 号 相 匹 配 ， 以 及 状态 值 是 否 标 识 成 功 (比如 ， 为 0) 。 如 果 应 答 有 效 ，rdscomm 就 返 
回 OK 给 调用 者 ; 和 否则， 返回 一 个 错误 指示 。 


18. 11 上 半 部 写 函 数 ( rdsWrite) 


由 于 远程 磁盘 系统 提供 异步 写 操作 ， 所 以 上 半 部 写 函 数 很 容易 理解 。 文 件 rdsWrite.c 包含 如 下 
代码 : 


第 18 章 远程 磁盘 驱动 - 227 
/* rdsWrite.c -  rdsWrite */ 


#include «xinu.h» 


y 
devcall rdsWrite ( 
struct dentry *devptr, /* entry in device switch table */ 
char  *buff, /* buffer that holds a disk blk */ 
int32 blk /* block number to write kJ 
) 
{ 
struct rdscblk *rdptr; /* pointer to control block ud 
struct rdbuff  *bptr; /* ptr to buffer on a list wy 
struct rdbuff *pptr; /* ptr to previous buff on list */ 
struct rdbuff *nptr; /* ptr to next buffer on list */ 
bool8 found; /* was buff found during search?*/ 


/* If device not currently in use, report an error */ 
rdptr = &rdstab[devptr->dvminor] ; 


if (rdptr->rd_state != RD_OPEN) { 
return SYSERR; 


/* If request queue already contains a write request */ 


g% for the block, replace the contents ky 
bptr = rdptr-»rd rhnext; 
while (bptr != (struct rdbuff *)&rdptr->rd_rtnext) { 


if ( (bptr-»rd blknum == blk) && 
(bptr->rd_op == RD_OP_WRITE) ) { 
memcpy (bptr-»rd block, buff, RD BLKSIZ); 
return OK; 

} 

bptr = bptr-»rd next; 


/* Search cache for cached copy of block */ 


bptr = rdptr-»rd chnext; 
found = FALSE; 
while (bptr != (struct rdbuff *)&rdptr->rd_ctnext) { 
if (bptr-»rd blknum == blk) ( 
if (bptr-»rd refcnt «- 0) ( 
pptr - bptr-»rd prev; 
nptr - bptr-»rd next; 


/* Unlink node from cache list and reset*/ 
/* the available semaphore accordingly */ 


pptr-»rd next - bptr-»rd next; 
nptr-»rd prev - bptr-»rd prev; 
semreset (rdptr-»rd availsem, 
semcount (rdptr-»rd availsem) - 1); 
found - TRUE; 


w Un 
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break; 
} 
bptr = bptr->rd_next; 
} 
if ( !found ) ( 
bptr - rdsbufalloc (rdptr); 
} 


/* Create a write request */ 


memcpy (bptr-»rd block, buff, RD BLKSIZ); 
bptr-»rd op - RD OP WRITE; 

bptr-»rd refcnt = 0; 

bptr-»rd blknum - blk; 

bptr-»rd status - RD VALID; 

bptr-»rd pid - getpid(); 


/* Insert new request into list just before tail */ 


pptr - rdptr-»rd rtprev; 
rdptr-»rd rtprev - bptr; 
bptr-»rd next - pptr-»rd next; 
bptr-»rd prev - pptr; 
pptr-»rd next - bptr; 


/* Signal semaphore to start communication process */ 


signal (rdptr->rd_reqsem) ; 
return OK; 

} 

这 段 代码 首先 考虑 如 下 情况 : 请 求 队列 已 经 包含 对 同一 个 块 的 挂 起 写 请 求 。 注 意 : 任意 时 刻 对 请 
求 队列 中 的 某 个 给 定 块 只 能 有 一 个 写 请 求 。 这 段 代码 从 头 到 尾 对 队列 进行 遍历 搜索 。 如 果 发 现 对 块 的 
写 请 求 ，rdsWrite 就 用 一 个 新 的 数据 替换 所 请 求 的 内 容 ， 然 后 返回 。 

在 搜索 请 求 队列 后 ，rdsWrite 会 首先 检查 缓存 。 如 果 指 定 的 块 在 缓存 中 ， 则 该 缓存 的 副本 必须 置 为 
无 效 。 这 段 代 码 顺序 地 对 缓存 进行 遍历 。 如 果 发 现 一 个 匹配 ，rdsWrite 就 从 缓存 中 删除 该 缓冲 区 。 不 
过 ，rdsWrite 并 不 是 将 该 缓冲 区 移 至 空闲 链表 ， 而 是 使 用 该 缓冲 区 生成 一 个 请 求 。 如 果 没 有 匹配 ， 
rdsWrite 就 调用 rdsbufalloc 为 请 求 分 配 一 个 新 的 缓冲 区 。 

rdsWrite 的 最 后 一 部 分 生成 一 个 写 请 求 〈write request) ， 并 将 其 插 和 人 请求 队列 的 末尾 。 为 了 方便 调 
试 ， 代 码 填写 了 请 求 的 各 个 字段 。 例 如 ， 进 程 ID 字段 尽管 未 被 用 到 ， 但 仍 被 设置 。 


18.12 ”上 半 部 读 函 数 ( rdsRead) 

第 二 个 主要 的 上 半 部 函数 与 读 操作 有 关 。 读 比 写 更 复杂 ， 因 为 输入 是 同步 的 : 一 个 试图 从 磁盘 
中 读 取 数据 的 进程 必须 等 待 直到 该 数据 为 可 用 的 。 一 个 等 待 进程 的 同步 操作 要 用 到 发 送 (send) 和 
接收 (recieve) 函数 。 请 求 队 列 中 的 每 个 结 点 包含 有 进程 ID 字段 。 当 进程 调用 读 函 数 时 ， 驱 动 代 码 
创建 一 个 读 请 求 ， 该 请 求 包 含 调用 者 的 进程 DDD。 然后， 进程 将 请 求 插 入 请 求 队列 ， 并 调用 接收 函数 
来 等 待 响应 。 当 请 求 到 达 队 列 头 时 ， 远 程 磁 盘 通 信 进 程 将 报 文 发 送 到 服务 器 并 接收 包含 指定 块 的 响 
应 。 通 信 进 程 将 该 块 复制 到 包含 原始 请 求 的 缓冲 区 ， 把 该 缓冲 区 移 至 缓存 中 ， 再 使 用 发 送 函 数 将 报 
文 发 送 给 带 有 缓冲 区 地 址 的 等 待 进程 。 等 待 进程 接收 报 文 ， 提 取 数 据 的 副本 ， 并 返回 给 调用 读 的 
PR > 

上 述 方案 的 效率 不 高 ， 因 为 缓冲 区 是 动态 使 用 的 。 为 了 理解 这 个 问题 ， 假 设 一 个 低 优 先 级 的 进程 
因为 要 读数 据 块 5 而 被 阻塞 。 最后， 通信 进程 从 服务 器 获得 数据 块 5， 将 其 存储 在 缓存 中 ， 并 向 这 个 等 


第 18 章 远程 磁盘 驱动 


229 


待 进程 发 送 报 文 。 然 而 ， 假 设 请 求 在 请 求 队列 中 ,同时 高 优先 级 应 用 程序 开始 执行 ， 这 就 意味 着 低 优 
先 级 的 进程 不 会 被 执行 。 不 幸 的 是 ， 如 果 高 优先 级 进程 一 直 使 用 磁盘 缓冲 区 ， 那么 保存 数据 块 5 的 组 
冲 区 也 将 被 分 配 出 去 。 

因为 远程 磁盘 系统 允许 并 发 访问 ， 所 以 这 个 问题 将 变 得 更 加 严重 : 当 一 个 进程 等 待 读 取 一 个 数据 
块 时 ， 另 一 进程 也 可 以 试图 读 取 同 一 个 块 。 这 样 ， 当 通信 进程 最 终 从 服务 器 检索 某 个 块 的 副本 时 ， 需 
要 通知 与 之 相关 的 多 个 进程 。 

本 书 示 例 程 序 使 用 了 引用 计数 (reference count) 来 解决 对 同一 个 块 的 多 次 请 求 : 每 个 缓冲 区 的 头 
包含 一 个 整 型 值 来 记录 读 取 某 个 块 的 进程 数 。 当 一 个 进程 结束 复制 数据 时 ， 该 进程 递减 引用 计数 。 文 
件 rdsRead.c 中 的 代码 显示 了 进程 如 何 产生 请 求 ， 将 其 插入 请 求 链表 的 末尾 ， 等 待 请 求 满足 ， 并 从 请 求 


将 数据 复制 到 每 个 调用 者 的 缓冲 区 。 在 本 章 的 后 面部 分 ， 我 们 将 看 到 如 何 管理 引用 计数 。 


/* rdsRead.c -  rdsRead */ 


#include «xinu.h» 


xy 


devcall rdsRead ( 


struct dentry *devptr, /* entry in device switch table */ 
char *buff, /* buffer to hold disk block z4 
int32 blk /* block number of block to read*/ 

) 
struct rdscblk *raptr; /* pointer to control block * 
struct rdbuff  *bptr; /* ptr to buffer possibly on wif 
/* the request list i À 
struct rdbuff  *nptr; /* ptr to "next" node on a ey 
/* list */ 
struct rdbuff  *pptr; /* ptr to "previous" node on ud 
/* a list */ 
struct rdbuff  *cptr; /* ptr used to walk the cache *7 


/* If device not currently in use, report an error */ 


rdptr - &rdstab[devptr-»dvminor]; 

if (rdptr-»rd state !- RD OPEN) { 
return SYSERR; 

} 


/* Search the cache for specified block */ 


bptr = rdptr-»rd chnext; 
while (bptr != (struct rdbuff *)&rdptr-»rd ctnext) { 
if (bptr-»rd blknum == blk) ( 
if (bptr-»rd status == RD INVALID) { 
return SYSERR; 
) 
memcpy (buff, bptr-»rd block, RD BLKSIZ); 
return OK; 
} 
bptr = bptr-»rd next; 
} 


/* Search the request list for most recent occurrence of block */ 


bptr = rdptr-»rd rtprev; /* start at tail of list */ 
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while (bptr != (struct rdbuff *)&rdptr-»rd rhnext) ( 
if (bptr-»rd blknum == blk) { 


/* If most recent request for block is write, copy data */ 


if (bptr-»rd op -- RD OP WRITE) ( 
memcpy (buff, bptr-»rd block, RD BLKSIZ); 
return OK; 
} 
break; 
} 
bptr = bptr->rd_prev; 


/* Allocate a buffer and add read request to tail of req. 


bptr = rdsbufalloc (rdptr); 
bptr->rd_op = RD_OP_READ; 
bptr-»rd refcnt = 1; 
bptr-»rd blknum blk; 
bptr-»rd status - RD INVALID; 
bptr-»rd pid - getpid(); 


/* Insert new request into list just before tail */ 


pptr - rdptr-»rd rtprev; 
rdptr-»rd rtprev = bptr; 
bptr-»rd next - pptr-»rd next; 
bptr-»rd prev - pptr; 
pptr-»rd next - bptr; 


/* Prepare to receive message when read completes */ 
recvclr(); 

/* Signal semaphore to start communication process */ 
signal (rdptr->rd_reqsem) ; 

/* Block to wait for message */ 


bptr = (struct rdbuff *)receive(); 

if (bptr == (struct rdbuff *)SYSERR) { 
return SYSERR; 

} 

memcpy (buff, bptr->rd_block, RD BLKSIZ); 

bptr-»rd refcnt--; 

if (bptr-»rd refcnt «- 0) ( 


queue */ 


/* Look for previous item in cache with the same block */ 
£* number to see if this item was only being kept */ 


/* until pending read completed 


cptr - rdptr-»rd chnext; 
while (cptr !- bptr) ( 
if (cptr-»rd blkm == blk) ( 


/* Unlink from cache */ 
pptr - bptr-»rd prev; 


nptr - bptr-»rd next; 
pptr-»rd next - nptr; 


*/ 
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nptr-»rd prev = pptr; 
/* Add to the free list */ 


bptr->rd_next = rdptr->rd_free; 
rdptr-»rd free = bptr; 


) 
) 
return OK; 


} . 
rdsRead 开始 先 处 理 了 两 种 特殊 情形 。 第 一 ， 如 果 被 请 求 的 块 在 缓存 中 ，rdsRead 就 提取 数据 的 
副本 并 返回 。 第 二 ， 如 果 请 求 链表 包含 某 个 写 指 定数 据 块 的 请 求 ，rdsRead 就 从 缓冲 区 提取 数据 的 副 
本 并 返回 。 最 后 ，rdsRead 产生 一 个 读 请 求 ， 将 其 插入 请 求 链表 的 末尾 ， 并 等 待 从 通信 进程 发 来 的 
报 文 。 

这 段 代码 还 处 理 了 一 个 更 细节 的 情形 : 引用 计数 为 0 并 且 对 同一 个 数据 块 的 下 一 个 读 处 于 缓存 的 
某 个 较 新 (分 配 ) 的 缓冲 区 中 。 如 果 这 种 情况 发 生 ， 较 新 版 本 将 被 用 于 后 面 的 读 操 作 。 因 此 ，rdsRead 
必须 从 缓存 中 提取 较 早 (分配) 的 缓冲 区 并 把 它 移 至 空闲 链表 中 。 


18.13 ”刷新 挂 起 的 请 求 


因为 写 操作 并 不 需要 等 待 数据 传送 ， 所 以 当 写 操作 完成 的 时 候 ， 驱 动 不 需要 通知 进程 写 操作 结束 。 
但 是 ， 对 于 软件 来 说 确保 数据 安全 存储 是 很 重要 的 事情 。 比 如 ， 操 作 系 统 通常 在 关机 之 前 必须 确保 写 
操作 已 经 完成 。 

为 了 确保 所 有 的 磁盘 传输 已 经 完成 ， 驱 动 包 含 了 一 个 原 语 ， 该 原 语 的 作用 是 : 在 所 有 的 请 求 完成 
之 前 ， 阻 塞 其 他 的 进程 对 其 进行 调用 。 由 于 磁盘 “同步 ”并 非 单 纯 的 数据 传送 操作 ， 所 以 我 们 使 用 了 
一 个 名 为 控制 (control) 的 高 层 操作 。 进 程 调 用 : 

control( disk_device, RD_SYNC) 
在 指定 的 设备 满足 当前 请 求 之 前 ， 驱 动 将 暂停 调用 进程 。 一 旦 挂 起 操作 完成 ， 调 用 就 返回 。 


18.14 上 半 部 控制 函数 (rdsControl) 


正如 上 面 讨论 的 那样 ， 例 子 中 的 驱动 程序 提供 了 两 个 控制 (control) 函数 : 一 个 用 于 清除 磁盘 ， 
一 个 用 于 将 数据 同步 到 磁盘 上 〈 即 强制 完成 所 有 的 写 操作 ) 。 文 件 rdsControl.c 包含 如 下 代码 : 


/* rdsControl.c -  rdsControl */ 


#include <xinu.h> 


Es 

devcall rdsControl ( 
struct dentry  *devptr, /* entry in device switch table */ 
int32 func, /* a control function sas 
int32 argl, /* argument #1 E7 
int32 arg2 /* argument #2 ud 
) 

{ 
struct rdscblk *rdptr; /* pointer to control block */ 
struct rdbuff  *bptr; /* ptr to buffer that will be Ei 

/* placed on the req. queue */ 

struct rdbuff  *pptr; /* ptr to "previous" node on ay 


/* a list */ 
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struct rd msg dreq msg; /* buffer for delete request *7 
struct rd msg dres resp; /* buffer for delete response ki d 
char *to, *from; /* used during name copy * 
int32 retval; /* return value Ef 


/* Verify that device is currently open */ 


rdptr = &rdstab[devptr-»dvminor]; 

if (rdptr-»rd state !- RD OPEN) { 
return SYSERR; 

) 


switch (func) ( 
/* Synchronize writes */ 


case RDS CTL SYNC: 
/* Allocate a buffer to use for the request list */ 


bptr - rdsbufalloc (rdptr); 

if (bptr -- (struct rdbuff *)SYSERR) ( 
return SYSERR; 

} 


/* Form a sync request */ 


bptr->rd_op = RD_OP_SYNC; 

bptr->rd_refent 1; 

bptr-»rd blknum 0; /* unused */ 
bptr-»rd status - RD INVALID; 

bptr-»rd pid - getpid(); 


I 


/* Insert new request into list just before tail */ 


pptr = rdptr->rd_rtprev; 
rdptr-»rd rtprev = bptr; 
bptr-»rd next = pptr-»rd next; 
bptr-»rd prev - pptr; 
pptr-»rd next - bptr; 


/* Prepare to wait until item is processed */ 


recvclr(); 
resume (rdptr-»rd comproc); 


/* Block to wait for message */ 


bptr - (struct rdbuff *)receive(); 
break; 


/* Delete the remote disk (entirely remove it) */ 
case RDS CTL DEL: 


/* Handcraft a message for the server that requests *7 
JE deleting the disk with the specified ID */ 


msg.rd type = htons(RD MSG DREQ);/* Request deletion */ 
msg.rd status - htons(0); 

msg.rd seq = 0; /* rdscomm will insert sequence # later */ 
to - msg.rd id; 

memset(to, NULLCH, RD IDLEN); /* initialize to zeroes */ 
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from = rdptr-»rd id; 
while ( (*to++ = *from++) != NULLCH ) { /* copy ID 


i 


} 
/* Send message and receive response */ 


retval = rdscomm((struct rd_msg_hdr *)&msg, 
sizeof (struct rd msg dreq), 
(struct rd msg hdr *)&resp, 
sizeof(struct rd msg dres), 
rdptr); 


/* Check response */ 
if (retval -- SYSERR) ( 


return SYSERR; 
) else if (retval == TIMEOUT) { 
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f 


kprintf ("Timeout during remote file delete\n\r"); 


return SYSERR; 

) else if (ntohs(resp.rd status) !- 0) ( 
return SYSERR; 

} 


/* Close local device */ 


return rdsClose(devptr) ; 


default: 
kprintf("rfsControl: function %d not valid\n\r", func); 
return SYSERR; 

} 

return OK; 


} 


. 
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每 个 函数 中 的 代码 看 起 来 都 很 相似 。 清 除 磁盘 的 代码 与 函数 rdsOpen 中 的 代码 很 相似 一 一 函数 
rdsOpen 为 服务 器 创建 消息 ， 并 使 用 函数 rdscomm 来 传送 消息 。 同 步 磁盘 写 操作 的 代码 与 函数 rdsRead 





中 的 代码 很 相似 


18.15 分配 磁 盘 缓冲 区 (rdsbufalloc) 
正如 我 们 所 见 ， 当 需要 分 配 缓冲 区 的 时 候 ， 了 豫 动 函数 调用 艺 数 rdsbufalloc。rdsbufalloc.c 文件 包含 


如 下 代码 : 


/* rdsbufalloc.c -  rdsbufalloc */ 


#include «xinu.h» 


ey 


struct rdbuff *rdsbufalloc ( 


struct rdscblk *rdptr 


) 


struct 
struct 


rdbuff *bptr; /* ptr to a buffer 
rdbuff *pptr; /* ptr to previous buffer 


/* ptr to device control block */ 


xg 
*/ 


rdsRead 创建 请 求 ， 并 将 其 加 入 请 求 队列 ， 调 用 函数 receive 来 等 竺 应答。 一 旦 应 
BIA, PA rdsControl 就 唤醒 rdsClose 来 关闭 本 地 设备 ， 并 返回 到 它 的 调用 者 。 
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struct rdbuff 


234» 
*nptr; 
/* Wait for an available buffer */ 
wait (rdptr->rd_availsem) ; 

/* If free list contains a buffer, 


bptr = rdptr->rd_free; 


/* ptr to next buffer 


y 


extract it */ 


if ( bptr !- (struct rdbuff *)NULL ) ( 
rdptr-»rd free - bptr-»rd next; 


return bptr; 
) 


/* Extract oldest item in cache that has ref count zero (at 
least one such entry must exist because the semaphore 


/* 


pE had a nonzero count) 


bptr = rdptr-»rd ctprev; 


+y 
"n 
Mp 


while (bptr !- (struct rdbuff *) &rdptr-»rd chnext) ( 


if (bptr-»rd refcnt «- 0) 


/* Remove from cache and return to caller */ 
pptr - bptr-»rd prev; 


nptr - bptr-»rd next; 
pptr-»rd next - nptr; 
nptr-»rd prev - pptr; 


return bptr; 
} 
bptr = bptr->rd_prev; 


} 


panic("Remote disk cannot find an available buffer"); 


return (struct rdbuff *)SYSERR; 
} 


记 住 ， 信 号 量 计 数 器 的 可 用 缓冲 区 要 么 在 空闲 链表 中 ， 要 么 在 缓存 中 。 在 等 待 信号 量 后 ，rdsbufalloc 
函数 首先 对 空闲 链表 进行 检查 。 如 果 空 闲 链表 不 为 空 ，rdsbufalloc 就 提取 第 一 个 缓冲 区 ， 并 且 将 它 返 
回 。 如 果 空 闲 链表 为 空 ，rdsbufalloc 在 缓存 中 搜索 一 个 可 用 的 缓冲 区 ， 提 取 该 缓冲 区 ， 并 且 将 它 返 回 给 
rdsbufalloc 函数 的 调用 者 。 如 果 搜 索 完 成 没 找 到 可 用 的 缓冲 区 ， 那 么 系统 认为 信号 量 计数 器 出 错 ，rdsb- 


ufalloc 调用 panic 来 终止 系统 。 
18.16 ”上 半 部 关闭 函数 ( rdsClose ) 


进程 调用 关闭 (close) 函数 来 关闭 远程 磁盘 设备 ， 停 止 所 有 的 通信 。 文 件 rdsClose.c 包含 如 下 代码 : 


/* rdsClose.c -  rdsClose */ 


#include <xinu.h> 


at 
devcall rdsClose ( 


struct dentry *devptr /* 
) 
{ 
struct rdscblk *rdptr; /* 
struct rdbuff  *bptr; pe 
struct rdbuff  *nptr; Vini 
int32 . nmoved; p” 


/* Device must be open */ 


entry in device switch table */ 


ptr to control block entry */ 
ptr to buffer on a list */ 
ptr to next buff on the list */ 
number of buffers moved */ 
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rdptr = &rdstab[devptr->dvminor] ; 

if (rdptr-»rd state !- RD OPEN) { 
return SYSERR; 

3 


/* Request queue must be empty */ 


if (rdptr-»rd rhnext != (struct rdbuff *)&rdptr-»rd rtnext) ( 
return SYSERR; 
} 


/* Move all buffers from the cache to the free list */ 


bptr = rdptr-»rd chnext; 

nmoved = 0; 

while (bptr != (struct rdbuff *)&rdptr-»rd ctnext) { 
nmoved++ ; 


/* Unlink buffer from cache */ 


nptr = bptr->rd_next; 
(bptr->rd_prev) ->rd_next = nptr; 
nptr->rd_prev = bptr->rd_prev; 


/* Insert buffer into free list */ 
bptr->rd_next = rdptr-»rd free; 


rdptr-»rd free = bptr; 
bptr->rd_status = RD_INVALID; 


/* Move to next buffer in the cache */ 


bptr = nptr; 
} 


/* Set the state to indicate the device is closed */ 


rdptr-»rd state = RD FREE; 
return OK; 

) 

为 了 关闭 远程 磁盘 设备 ， 必 须 把 所 有 的 缓冲 区 都 移 回 到 空闲 链表 中 并 将 控制 块 中 的 状态 字段 设置 
为 RD_FREE。 我 们 的 系统 虽然 实现 了 从 缓存 中 移 除 缓冲 区 ， 但 没有 处 理 请 求 链表 。 相 反 我 们 要 求 用 户 
等 待 直到 所 有 的 请 求 完 成 且 请 求 链表 为 空 后 才 可 以 调用 rdsClose。 同 步 函 数 RDS_CTL_SYNCS 提供 了 一 
种 等 待 请 求 链表 为 空 的 方法 。 


18.17 下 半 部 通信 进程 (rdsprocess) 

如 例子 中 实现 的 那样 ， 每 个 远程 磁盘 设备 都 有 它 自 己 的 控制 块 、 磁 盘 缓冲 区 集合 和 远程 通信 进程 。 
因此 ,假设 远程 磁盘 进程 只 需要 处 理 单独 队列 中 的 请 求 。 尽 管 下 面 的 代码 可 能 看 起 来 元 长 繁 珊 , 但 是 
算法 非常 浅显 易 懂 : 持续 等 待 请 求 信号 量 ， 检 查 队列 头 的 请 求 类 型 ， 执 行 读 、 写 或 同步 操作 。 文 件 rd- 
sprocess.c 包含 如 下 代码 : 


/* rdsprocess.c -  rdsprocess */ 


#include <xinu.h> 





© Xf rdsControl.e 中 的 同步 代码 可 以 在 18. 14 节 找 到 。 
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* rdsprocess - high-priority background process that repeatedly extracts 
an item from the request queue and sends the request to 


È the remote disk server 
| {E E A AE E E E E F EE E A SE PE S CEOE EED E PEE ERA PA A 
*j 
void rdsprocess ( 
struct rdscblk *rdptr /* ptr to device control block */ 
) 
( 
struct rd msg wreq msg; /* message to be sent at 
/* (includes data area) *f 
struct rd msg_rres resp; /* buffer to hold response xj 
/* (includes data area) */ 
int32 retval; /* return value from rdscomm */ 
char *idto; /* ptr to ID string copy */ 
char *idfrom; /* ptr into ID string */ 
struct rdbuff  *bptr; /* ptr to buffer at the head of */ 
7 dad the request queue xj 
struct rdbuff  *nptr; /* ptr to next buffer on the */ 
/* request queue ar 
struct rdbuff  *pptr; /* ptr to previous buffer yy 
struct rdbuff *qptr; /* ptr that runs along the * 
i request queue y 
int32 is /* loop index ay 
while (TRUE) { /* do forever */ 


/* Wait until the request queue contains a node */ 
wait (rdptr->rd_reqsem) ; 

bptr = rdptr->rd_rhnext; 

/* Use operation in request to determine action */ 
switch (bptr->rd_op) { 


case RD_OP_READ: 


/* Build a read request message for the server */ 


msg.rd type = htons(RD_MSG_RREQ) ; /* read request */ 
msg.rd_status = htons(0); 
msg.rd_seq = 0; /* rdscomm fills in an entry *y 


idto - msg.rd id; 

memset(idto, NULLCH, RD IDLEN);/* initialize ID to zero */ 
idfrom - rdptr-»rd id; 

while ( (*idto++ = *idfrom++) != NULLCH ) ( /* copy ID */ 


; 


/* Send the message and receive a response */ 


retval - rdscomm((struct rd msg hdr *)&msg, 
Sizeof(struct rd msg rreq), 
(struct rd msg hádr *)&resp, 


sizeof(struct rd msg rres), 
rdptr ); 


/* Check response */ 
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if ( (retval == SYSERR) || (retval == TIMEOUT) || 
(ntohs(resp.rd status) != 0) ) { 
panic("Failed to contact remote disk server"); 


/* Copy data from the reply into the buffer */ 
for (i20; i«RD BLKSIZ; i++) ( 
bptr-»rd block[i] = resp.rd_data[i]; 


/* Unlink buffer from the request queue */ 


nptr - bptr-»rd next; 
pptr - bptr-»rd prev; 
nptr-»rd prev = bptr-»rd prev; 
pptr-»rd next - bptr-»rd next; 


/* Insert buffer in the cache */ 


pptr (struct rdbuff *) &rdptr-»rd chnext; 
nptr - pptr-»rd next; 
bptr-»rd next - nptr; 
bptr-»rd prev - pptr; 
pptr-»rd next = bptr; 
nptr-»rd prev - bptr; 


/* Initialize reference count */ 


bptr-»rd refcnt - 1; 


/* Signal the available semaphore */ 


signal (rdptr->rd_availsem) ; 


/* Send a message to waiting process */ 


send(bptr-»rd pid, (uint32)bptr) ; 


/* If other processes are waiting to read the */ 
/* block, notify them and remove the request */ 


qptr - rdptr-»rd rhnext; 
while (qptr != (struct rdbuff *)&rdptr-»rd rtnext) ( 
if (qptr-»rd blkn -- bptr-»rd blknum) ( 
bptr->rd_refcnt++; 
send(qptr->rd pid, (uint32)bptr); 


/* Unlink request from queue EJ 
pptr = qptr-»rd prev; 

nptr = qptr-»rd next; 
pptr->rd_next = bptr->rd_next; 
nptr->rd_prev = bptr->rd prev; 


/* Move buffer to the free list */ 


gptr-»rd next = rdptr-»rd free; 
rdptr-»rd free = qptr; 
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signal(rdptr-»rd availsem); 
break; 
) 
qptr - qptr-»rd next; 
) 


break; 


case RD OP WRITE: 


/* Build a write request message for the server */ 


msg.rd type - htons(RD MSG WREQ); /* write request*/ 
msg.rd blk - bptr-»rd blknum; 
msg.rd status - htons(0); 
msg.rd seq - 0; /* rdscomm fills in an entry xy 
idto = msg.rd id; 
memset (idto, NULLCH, RD_IDLEN);/* initialize ID to zero */ 
idfrom = rdptr-»rd id; 
while ( (*idto++ = *idfrom++) != NULLCH ) { /* copy ID */ 
} 
for (i=0; i<RD_BLKSIZ; i++) { 

msg.rd datali] = bptr-»rd block[i]; 


/* Unlink buffer from request queue */ 


nptr = bptr-»rd next; 
pptr = bptr->rd_prev; 
pptr->rd_next = nptr; 
nptr-»rd prev = pptr; 


/* Insert buffer in the cache */ 


pptr = (struct rdbuff *) &rdptr-»rd chnext; 
nptr - pptr-»rd next; 

bptr-»rd next - nptr; 

bptr-»rd prev - pptr; 

pptr-»rd next - bptr; 

nptr-»rd prev - bptr; 

/* Declare that buffer is eligible for reuse */ 


bptr-»rd refcnt - 0; 
signal(rdptr-»rd availsem); 


/* Send the message and receive a response */ 


retval - rdscomm((struct rd msg hdr *)&msg, 
sizeof(struct rd msg wreq), 
(struct rd msg hdr *)&resp, 
sizeof(struct rd msg wres), 
rdptr ); 


/* Check response */ 


if ( (retval -- SYSERR) || (retval == TIMEOUT) || 
(ntohs(resp.rd status) != 0) ) { 
panic("failed to contact remote disk server"); 


break; 
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case RD_OP_SYNC: 
/* Send a message to the waiting process */ 
send(bptr-»rd pid, OK); 
/* Unlink buffer from the request queue */ 


nptr = bptr-»rd next; 
pptr - bptr-»rd prev; 
nptr-»rd prev - bptr-»rd prev; 
pptr-»rd next - bptr-»rd next; 


/* Insert buffer into the free list */ 


bptr-»rd next - rdptr-»rd free; 
rdptr-»rd free - bptr; 
signal(rdptr-»rd availsem); 
break; 
) 
) 
} 


在 进行 代码 检查 的 时 候 ， 要 牢记 远程 磁盘 进程 比 其 他 任何 应 用 进程 拥有 更 高 的 优先 级 。 因 此 ， 在 
访问 请 求 队列 、 缓 存 或 空闲 链表 的 时 候 ， 不 需要 关中 断 或 者 使 用 互 斥 信号 量 。 但 是 ， 在 使 用 rdscomm 去 
与 服务 器 交换 报 文 的 时 候 ，rdsprocess 必须 保持 所 有 的 数据 结 爸 处 于 有 效 的 状态 ， 因 为 消息 接收 块 在 调 
用 进程 的 同时 也 可 能 有 其 他 的 进程 在 运行 。 在 执行 读 操作 的 时 候 ，rdsprocess 将 缓冲 区 放 在 请 求 队列 中 
直到 请 求 满足 。 在 执行 写 操作 的 时 候 ，rdsprocess 提取 数据 的 副本 ， 在 调用 rdscomm 前 将 缓冲 区 移动 到 
缓存 中 。 


18.18 ME 

理论 上 ， 远 程 磁 盘 系 统 只 需要 提供 两 个 基本 操作 : 读 一 个 块 和 写 一 个 块 。 但 是 ， 在 实际 应 用 中 ， 
同步 、 缓 存 、 共 享 都 是 要 考虑 的 问题 。 在 本 书 给 出 的 例子 中 ，Xinu 系统 仅仅 是 作为 一 个 客户 端 系统 ， 
所 以 尽 可 能 地 简化 了 设计 需求 。 客 户 端 可 以 在 不 与 其 他 Xin 系统 协调 的 情况 下 管理 它 的 本 地 缓存 。 类 
似 地 ， 缺 少 共享 简化 了 有 关 的 同步 问题 : 客户 端 只 需要 本 地 信息 来 强制 执行 最 后 写 人 语义 (last- write 
sematics ) 。 

如 果 系 统 扩展 后 允许 多 个 Xin 系统 共享 一 个 磁盘 ， 那 么 必须 改变 全 部 的 设计 。 一 个 给 定 的 客户 端 
在 与 服务 器 进行 协调 之 后 才能 进行 缓存 块 操作 。 此 外 ， 最 后 写 人 语义 必须 横贯 所 有 系统 ， 这 就 意味 着 
读 操 作 需 要 一 个 集中 分 配 机 制 来 保证 它们 按照 顺序 发 生 。 这 里 的 重点 是 : 

扩展 远程 磁盘 系统 以 便 包 含 多 个 Xinu 系统 共享 机 制 ， 将 导致 系统 结构 的 重大 变化 。 


18. 19 总 结 

我 们 认为 远程 磁盘 系统 是 一 个 可 以 对 磁盘 块 进行 读 和 写 操作 ， 并 使 用 网 络 与 远程 服务 器 进 行 通信 
和 基本 操作 的 应 用 程序 。 驱 动 把 磁盘 当做 一 个 可 以 进行 随机 块 访问 的 数组 ， 不 提供 文件 、 目 录 或 者 其 
他 的 用 来 加 速 搜索 的 索引 。 读 操作 将 磁盘 中 的 数据 块 复制 到 内 存 中 ， 写 操作 将 内 存 中 的 数据 块 复制 到 
指定 的 磁盘 块 中 。 

驱动 代码 可 以 分 为 应 用 程序 调用 的 上 半 部 函数 和 作为 单独 进程 执行 的 下 半 部 分 函数 。 输 入 是 同步 
的 ， 进 行 读 操作 的 进程 块 挂 起 直到 满足 要 求 。 输 出 是 异步 的 ， 驱 动 接 受 一 个 流出 的 数据 块 ， 加 入 到 队 
列 中 ， 在 不 阻塞 进程 的 情况 下 立即 返回 给 调用 者 。 进 程 可 以 使 用 控制 (control) 函数 刷新 以 前 写 在 磁 
盘 上 的 数据 。 

驱动 主要 使 用 3 个 数据 结构 : 请 求 队 列 、 最 近 使 用 块 的 缓存 和 空闲 链表 。 尽 管 它 依赖 于 缓存 ， 但 
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是 驱动 程序 负责 确保 证 最 后 写 人 语义 。 


练习 


18. 1 


18. 2 


重新 设计 程序 实现 请 求 链表 结 点 的 缓冲 区 与 缓存 中 的 缓冲 区 分 开 〈 即 为 每 个 链表 定义 一 个 结 点 ， 为 
每 个 结 点 定义 一 个 指向 一 个 缓冲 区 的 指针 ) 。 这 样 做 的 优点 和 缺点 分 别 是 什么 。 

重新 设计 远程 磁盘 系统 ， 通 过 使 用 “缓冲 区 交换 ”范式 来 允许 应 用 程序 和 驱动 共享 一 个 缓冲 池 。 为 
了 读 磁 盘 块 ， 当 调用 写 操作 时 安排 应 用 程序 分 配 缓冲 区 ， 填 充 缓冲 区 ,传递 缓冲 区 。 读 操作 必须 返 
回 一 个 缓冲 区 指针 以 便 在 缓冲 区 中 的 数据 被 提取 后 ， 应 用 程序 可 以 释放 申请 的 空间 。 

配置 一 个 拥有 多 个 远程 磁盘 设备 的 系统 是 可 能 的 。 修 改 rdsOpen 中 的 代码 来 检查 每 个 打开 的 远程 磁 
盘 设 备 确保 每 个 磁盘 ID 是 唯一 的 。 

创建 一 个 不 使 用 缓存 的 远程 磁盘 系统 ， 对 两 个 版 本 的 性 能 进行 比较 ， 找 出 不 同 。 

高 优先 级 进程 的 请 求 应 该 在 低 优先 级 进程 的 请 求 之 前 得 到 满足 吗 ? 解释 其 原因 。 

调查 其 他 的 算法 ， 比 如 电梯 (elevator) 算法 ， 这 是 一 种 可 以 用 来 安排 磁盘 请 求 的 算法 。 

验证 直到 所 有 的 挂 起 请 求 满足 后 才能 返回 对 “同步 ”的 请 求 。 该 时 间 延 迟 是 否 有 一 个 边界 ? 
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存档 关心 的 是 过 去 ， 你 需要 查看 的 事物 则 关系 未 来 。 
Katharine Whitehorn 





第 18 章 讨论 了 磁盘 设备 并 描述 了 人 允许 系统 读 写 磁盘 块 的 硬件 接口 。 尽 管 磁盘 在 存储 持久 、 非 易 失 
数据 时 有 优势 ， 但 是 系统 提供 的 磁盘 块 操作 接口 非常 不 方便 使 用 。 

本 章 介绍 文件 系统 抽象 。 文 件 系统 可 以 反映 操作 系统 如 何 管理 一 组 动态 变化 的 文件 对 象 ， 如 何 将 
文件 映射 到 底层 磁盘 硬件 上 。 


19.1 文件 系统 是 什么 

文件 系统 是 管理 持久 化 数据 的 软件 ， 这 些 持久 化 数据 的 生存 周期 比 创 建 并 使 用 它们 的 进程 的 生存 
周期 更 长 。 持 久 化 的 数据 保存 在 辅助 存储 设备 上 的 文件 中 ， 辅 助 存储 设备 主要 是 磁盘 设备 。 从 概念 上 
讲 ， 每 个 文件 由 数据 对 象 序列 组 成 〈 例 如 ， 一 个 整数 序列 ) 。 文 件 系 统 提 供与 文件 相关 的 下 述 操作 : 
43% (create) 和 删除 (delete) 文件 、 打 开 (open) 指定 的 文件 、 从 打开 的 文件 中 读 (read) 下 一 个 
对 象 、 向 打开 的 文件 中 写 (write) HR, 或 者 关闭 (close) 文件 。 如 果 文 件 系 统 允 许 随机 访问 ， 那 么 
文件 接口 也 给 进程 提供 一 个 在 文件 中 搜寻 (seek) 特定 位 置 的 操作 。 

许多 文件 系统 不 仅仅 对 辅助 存储 设备 上 的 文件 进行 操作 一 一 它们 还 提供 了 抽象 名 字 空 间 和 在 这 个 空 
间 中 对 对 象 进行 处 理 的 高 级 (high-level) 操作 。 文 件 名 字 空 间 由 一 组 符合 命名 规则 的 文件 名 组 成 。 名 字 
空间 可 以 像 “ 由 1 ~9 个 字符 组 成 的 字符 串 集 合 ”那样 简单 ， 也 可 以 像 “ 网 络 、 机 器 、 用 户 、 子 目录 和 
文件 标识 符 按照 特定 的 语法 合理 编码 的 字符 串 集 合 ” 那 样 复杂 。 在 某 些 系统 中 ， 抽 象 名 字 空 间 中 的 名 字 
语法 表现 了 文件 的 类 型 信息 ( 比如， 文本 文件 以 “.txt” 结 尾 )。 在 其 他 的 一 些 文件 系统 中 ， 名 字 反 映 了 
文件 系统 的 组 织 结构 信息 ( 比如， 以 字符 串 “MI1_d0:” 为 前 缀 的 文件 名 可 能 存在 于 1 号 机 器 (machine 
1) 的 0 号 磁盘 (disk 0) E. 我们 把 有 关 文 件 命名 的 讨论 放 在 第 21 9E, 本章 中 只 关注 文件 的 访问 。 


19.2 文件 操作 的 示例 集合 

为 了 使 文件 系统 尽 可 能 小 ， 我 们 在 设计 这 个 系统 时 使 用 了 一 种 更 直观 的 方法 设计 设备 与 文件 之 间 

的 统一 接口 。Xinu 文件 的 语义 取 自 UNIX， 并 遵循 如 下 的 原则 : 
文件 系统 认为 每 个 文件 都 是 0 个 或 多 个 字 节 的 序列 ,文件 上 任何 其 他 结构 都 是 由 使 用 文 

件 的 应 用 程序 来 解释 。 

把 文件 当做 字 节 流 有 几 个 优点 。 第 一 ,文件 系统 认为 文件 没有 类 型 ， 因 此 不 需要 区 分 不 同 的 文件 
类 型 。 第 二 ， 因 为 文件 系统 函数 集 足 够 处 理 所 有 的 文件 ， 所 以 文件 系统 的 代码 很 精简 。 第 三 ， 文 件 语 
义 不 仅 可 以 赋予 传统 文件 ， 也 可 以 用 来 解释 设备 和 服务 。 第 四 ， 应 用 程序 可 以 选择 任意 的 结构 来 存储 
文件 中 的 数据 而 不 会 影响 文件 系统 本 身 。 最 后 ， 文 件 内 容 与 处 理 器 或 内 存 是 独立 的 〈 比 如 ， 应 用 程序 
可 能 需要 区 分 文件 中 的 32 位 与 64 位 整数 ， 但 是 文件 系统 不 需要 ) 。 

我 们 的 系统 对 待 文件 和 设备 使 用 同样 的 高 级 操作 。 这 样 ， 文 件 系统 需要 支持 open 、close 、read、 
write, putec, 、getc seek, init 和 control 操作 。 这 些 操作 应 用 在 传统 文件 上 产生 如 下 的 结果 : init 启动 时 
初始 化 与 文件 相关 的 数据 结构 。open 打开 一 个 命名 的 文件 ， 把 正在 执行 的 进程 与 磁盘 上 的 数据 关联 起 
来 ,并 且 建 立 一 个 指向 首 字 节 的 指针 。getc 和 read 从 文件 中 获取 数据 并 移动 指针 。getc 读 取 一 个 字 节 
的 数据 ，read 可 以 读 取 多 个 字 节 。putc 和 write 修改 文件 中 的 字 节 数据 ， 并 移动 文件 指针 ， 如 果 写 入 的 
新 数据 超出 了 文件 的 末尾 ,文件 的 长 度 就 会 增加 。 类 似 地 ，putc 修改 一 个 字 节 ，write 修改 多 个 字 节 。 
seek 操作 把 指针 移动 到 文件 中 指定 字 节 的 位 置 ， 文 件 的 首 字 节 在 0 字 节 位 置 。 最 后 ，close 断 开 进程 与 
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文件 的 关联 ， 文件 中 的 数据 留 在 永久 存储 设备 中 。 


19.3 本 地 文件 系统 的 设计 

如 果 文 件 所 在 的 磁盘 连接 在 计算 机 上 ， 那 么 称 这 个 文件 对 这 台 计 算 机 是 本 地 (local) 的 。 设 计 一 
个 管理 本 地 文件 的 系统 也 不 是 一 件 容易 的 事 ， 关 于 这 个 主题 有 大 量 的 研究 。 尽 管 文件 操作 看 上 去 很 直 
接 , 但 是 当 文 件 变 得 动态 (dynamic) 可 变 时 ， 复 杂 性 就 表现 了 出 来 。 也 就 是 说 ， 一 个 磁盘 可 以 存储 很 
多 文件 ， 同 时 一 个 文件 的 尺寸 可 以 无 限 地 大 〈 直 到 磁盘 空间 用 尽 ) 。 为 了 使 文件 的 动态 增长 成 为 可 能 ， 
文件 系统 不 能 为 文件 预 分 配 (pre-allocate) 磁盘 块 。 因 此 ， 这 就 需要 使 用 动态 数据 结构 。 

第 二 种 复杂 性 来 自 并 发 。 系 统 需要 提供 什么 程度 的 并 发 文件 操作 ? 大 型 系统 通常 允许 任意 数量 的 
进程 并 发 地 读 、 写 任意 数量 的 文件 。 多 点 访问 (multiple access) 的 难点 在 于 需要 明确 指出 多 进程 同时 
读 、 写 同一 文件 意味 着 什么 。 数 据 何 时 变 得 可 读 ? 如 果 两 个 进程 试图 修改 文件 中 的 同一 字 节 ， 系 统 应 
该 接受 哪个 写 操作 的 结果 ?进程 能 不 能 对 文件 中 的 数据 加 锁 以 避免 进 程 间 的 干扰 ? 

小 型 嵌入 式 系统 通常 不 需要 多 进程 恋 、 写 文件 的 通用 性 。 因 此 ， 为 了 限制 软件 复杂 性 和 更 好 地 利 
用 磁盘 空间 ， 小 型 系统 可 以 限制 文件 的 访问 方式 。 它 们 可 以 限制 一 个 进程 同时 访问 的 文件 数量 , 或 者 
限制 同时 访问 同一 个 文件 的 进程 数量 。 

我 们 的 目标 是 设计 一 个 高 效 、 紧 凑 的 ， 可 以 允许 进程 在 不 引入 不 必要 开销 的 前 提 下 动态 地 创建 文件 
和 扩展 文件 的 文件 系统 软件 。 作 为 通用 性 和 效率 的 折 中 ， 我 们 允许 进程 打开 任意 数量 的 文件 直到 系统 资 
源 耗 尽 。 而 对 一 个 文件 ， 系 统 只 允许 一 个 打开 (open) 操作 是 活路 的 (active)。 也 就 是 说 ， 如 果 文 件 已 
经 被 某 个 进程 打开 ， 那 么 后 续 的 打开 (open) 请 求 都 会 失败 ， 直 到 打开 这 个 文件 的 进程 关闭 文件 。 每 个 
文件 都 持 有 一 个 互 斥 信号 量 (mutual exclusion semaphore) 以 确保 一 次 只 有 一 个 进程 可 以 尝试 向 文件 中 写 
入 数据， 从 文件 中 读 取 数据 或 者 修改 当前 文件 位 置 。 同 时 ， 目 录 也 持 有 一 个 互 斥 信号 量 来 确保 每 次 只 
进程 可 以 试图 创建 文件 或 者 修改 目录 项 。 尽 管 并 发 处 理 需要 集中 更 多 注意 力 ， 但 我 们 的 设计 更 多 地 关注 
对 文件 动态 增长 的 支持 : 数据 结构 需要 动态 地 分 配 磁盘 空间 。19. 4 节 将 分 析 所 需要 的 数据 结构 。 


19.4 Xinu 文件 系统 的 数据 结构 


为 了 支持 动态 增长 和 随机 存 取 ，Xinu 文件 系统 动态 分 配 磁盘 块 并 使 用 索引 机 制 (index mechanism) 
来 快速 定位 给 定 文件 中 的 数据 。Xinu 将 磁盘 划分 为 3 个 独立 的 区 域 (如 图 19-1 所 示 ): 目录 (directo- 
I7) 、 索 引 区 (index area) 和 数据 区 (data area), 
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图 19-1 Xinu 文件 系统 的 磁盘 划分 为 3 个 区 域 的 示意 图 


磁盘 的 第 一 个 扇 区 存储 目录 ， 该 目录 包含 了 一 个 文件 名 链表 和 指向 给 定 文件 的 索引 块 链表 的 指针 。 
ali... 
目录 项 还 包含 一 个 表示 文件 当前 字 节 大 小 的 整数 值 。 

索引 区 在 磁盘 上 紧 随 目录 ， 包 含 了 索引 块 (index block) 集合 ， 简 称 为 -blocks。 每 个 文件 都 有 自 
己 的 索引 ， 该 索引 由 单 链表 链 起 的 索引 块 组 成 。 初 始 时 ， 所 有 的 索引 块 都 链接 在 一 个 空闲 链表 上 ， 系 
统 按 需 从 中 分 配 索引 块 。 当 文件 缩减 或 删除 时 ， 将 释放 的 索引 块 返回 给 空闲 链表 。 

数据 区 占据 了 磁盘 上 剩 下 的 所 有 空间 。 数 据 区 中 的 每 个 块 称 为 数据 块 (data block)， 简 称 为 
d-blocks， 因 为 数据 块 中 包含 了 存储 在 文件 中 的 数据 。 当 数据 块 中 没有 指向 其 他 数据 块 的 指针 时 ， 它 也 
包含 把 数据 块 关 联 到 文件 某 一 部 分 的 信息 ， 所 有 这 些 信息 都 保存 在 文件 的 索引 中 。 

与 索引 块 类 似 ， 当 磁盘 初始 化 时 ， 数 据 块 被 组 织 成 一 个 空闲 链表 。 文 件 系 统 按 需 从 空闲 链表 中 分 
配 数据 块 ， 当 文件 缩减 或 删除 时 ， 将 无 用 的 数据 块 返回 给 空闲 链表 。 

图 19-2 是 Xinu 文件 系统 的 数据 结构 示意 图 。 该 图 与 实际 比例 不 符 : 实际 上 ， 数 据 块 比索 引 块 大 
得 多 ， 它 占据 了 一 个 完整 的 磁盘 块 。 

需要 注意 的 一 点 是 图 19-2 中 的 数据 结构 存储 在 磁盘 上 。 对 于 指定 的 某 一 时 刻 ， 只 有 一 部 分 结构 存 
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放 在 内 存 中 一 一 文件 系统 必须 在 不 将 结构 读 人 内存 的 前 提 下 创建 和 维护 索引 。 


目录 





文件 名 1 
文件 名 2 





索引 块 索引 块 索引 块 











LI 


3s [ sas s» gas 
LED 16 个 数据 块 


图 19-2 Xinu 文件 系统 示意 图 ， 图 中 每 个 文件 由 包含 数据 块 指针 的 索引 块 链表 组 成 


19.5 索引 管理 器 的 实现 


从 概念 上 ， 索 引 块 构成 了 一 个 映射 到 磁盘 连续 区 域 的 随机 访问 数组 ， 即 索引 块 从 0 ~ 天 编号 ， 软 件 
利用 索引 号 来 引用 给 定 的 索引 块 。 因 为 索引 块 比 物理 磁盘 块 小 ， 所 以 系统 在 每 个 物理 块 中 存储 了 7 个 
索引 块 ， 读 、 写 索引 块 的 细节 由 软件 来 处 理 。 

因为 底层 硬件 每 次 传输 一 个 整 磁盘 块 ， 所 以 文件 系统 不 可 能 只 传输 一 个 索引 块 而 不 传输 与 该 块 处 
在 同一 磁盘 块 上 的 其 他 索引 块 。 因 此 ， 为 了 写 索引 块 ， 软 件 必须 读 出 该 索引 块 所 在 的 整个 磁盘 块 ， 将 
新 的 索引 块 复制 到 正确 位 置 ， 再 将 结果 物理 块 写 回 磁盘 。 类 似 地 ， 为 了 读 一 个 索引 块 ， 软 件 需 要 读 整 
个 物理 磁盘 块 ， 然 后 从 中 提取 索引 块 。 

在 分 析 处 理 索引 块 的 代码 之 前 ， 我 们 需要 理解 一 些 基 本 概念 。 文 件 lfilesysh 定义 整个 本 地 文件 系 
统 使 用 的 常量 和 数据 结 虱 ， 包 括 索引 块 内 容 的 lfiblk 结构 。 


/* lfilesys.h - ib2sect, ib2disp */ 
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ge kJ 
7* Local File System Data Structures wy 
7* */ 


/* A local file system uses a random-access disk composed of 512-byte */ 
/* sectors numbered 0 through N-1. We assume disk hardware can read or */ 


/* write any sector at random, but must transfer an entire sector. it 
/* Thus, to write a few bytes, the file system must read the sector, *] 
/* replace the bytes, and then write the sector back to disk. Xinu’s */ 
/* local file system divides the disk as follows: sector 0 is a *J 
/* directory, the next K sectors constitute an index area, and the wj 


/* remaining sectors comprise a data area. The data area is easiest to */ 
/* understand: each sector holds one data block (d-block) that stores nf 
/* contents from one of the files (or is on a free list of unused data */ 
/* blocks). We think of the index area as holding an array of index *y 


/* blocks (i-blocks) numbered 0 through I-1. A given sector in the wf 
/* index area holds 7 of the index blocks, which are each 72 bytes wy 
/* long. Given an i-block number, the file system must calculate the *4 
/* disk sector in which the i-block is located and the byte offset wy 
/* within the sector at which the i-block resides.  Internally, a file */ 
/* is known by the i-block index of the first i-block for the file. ial’ 4 
/* The directory contains a list of file names and the i-block number */ 
/* of the first i-block for the file. The directory also holds the wy 
/* i-block number for a list of free i-blocks and a data block number f 
/* of the first data block on a list of free data blocks. *y 
/* *7 


{III AA e e de RARA RK KI e ke IKK KKK IK e de de c ke e KICK KKK e ke e e ke ke e e ke IKK e ek KKK KKK ERK IK IK | 





244 


第 19 章 文件 系统 
#ifndef N1f1 
#define Nlfl 1 
#endif 


/* Use the remote disk device if no disk is defined (file system */ 
/* *assumes* the underlying disk has a block size of 512 bytes) */ 


#1 fndef 
#define 
#endif 


#define 
#define 
#define 
#define 
#define 


#define 
#define 
#define 


#define 
#define 


#define 
#define 
#define 


#define 


#define 


#define 


#define 
#define 


LF_DISK_DEV 
LF_DISK_DEV 


LF_MODE_R 
LF_MODE_W 
LF_MODE_RW 
LF_MODE_O 
LF_MODE_N 


LF_BLKSIZ 
LF NAME LEN 
LF NUM DIR ENT 


LF. FREE 
LF USED 


LF INULL 
LF DNULL 
LF IBLEN 
LF IDATA 


LF IMASK 


LF DMASK 


LF AREA IB 
LF AREA DIR 


SYSERR 


F MODE R 
F MODE W 
F MODE RW 
F MODE O 
F MODE N 


(ibid32) -1 
(dbid32) -1 
16 

8192 


Ox00001£££ 


Ox000001££ 


0 


/[* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 


/* 
/* 


/* 
/* 
/[* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


/* 
/* 


/* Structure of an index block on disk */ 


struct 


Vr 


1fiblk 
ibid32 
uint32 


dbid32 


{ 
ib_next; 
ib_offset; 


/* 
/* 
/* 
/* 


mode bit for "read" 

mode bit for "write" 

mode bits for "read or write" 
mode bit for "old" 

mode bit for "new" 


assumes 512-byte disk blocks 
length of name plus null 
num. of files in a directory 


slave device is available 
Slave device is in use 


index block null pointer 
data block null pointer 

data block ptrs per i-block 

bytes of data indexed by a 
single index block 

mask for the data indexed by 
a single index block (i.e., 
bytes 0 through 8191). 

mask for the data in a data 
block (0 through 511) 


first sector of i-blocks 
first sector of directory 


format of index block 

address of next index block 
first data byte of the file 
indexed by this i-block 


Ay 


ud 
oy 
di 
*/ 


ib dba[LF IBLEN];/* ptrs to data blocks indexed */ 


/* Conversion functions below assume 7 index blocks per disk block */ 


/* Conversion between index block number and disk sector number */ 


#define 


ib2sect (ib) 


(((ib)/7)+LF_AREA_IB) 


/* Conversion between index block number and the relative offset within */ 


/* 


#define 


a disk sector 


ib2disp(ib) 


(((ib)$7)*sizeof(struct lfiblk)) 


/* Structure used in each directory entry for the local file system */ 


ay 
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struct ldentry { /* description of entry for one */ 
/* file in the directory s/f 

uint32 ld size; /* curr. size of file in bytes */ 

ibid32 ld ilist; /* ID of first i-block for file */ 

"fel or IB NULL for empty file */ 

char ld name[LF. NAME LEN]; /* null-terminated file name xj 


}; 


/* Structure of a data block when on the free list on disk */ 


struct lfdbfree { 
dbid32 1f nextdb; /* next data block on the list */ 


char lf unused[LF BLKSIZ - sizeof(dbid32)]; 
}; 


/* Format of the file system directory, either on disk or in memory */ 


#pragma pack(2) 


struct lfdir { /* entire directory on disk n 
dbid32 l1fd_dfree; /* list of free d-blocks on disk*/ 
ibid32 1fd_ifree; /* list of free i-blocks on disk*/ 
int32 lfd nfiles; /* current number of files */ 
struct ldentry lfd files[LF NUM DIR ENT]; /* set of files Ef 
char padding[20]; /* unused chars in directory blk*/ 


li 
#pragma pack() 


/* Global data used by local file system */ 


struct lfdata { /* local file system data SL 
did32 lf dskdev; /* device ID of disk to use */ 

sia32 lf mutex; /* mutex for the directory and */ 

/* index/data free lists ati 

struct lfdir lf dir; /* In-memory copy of directory */ 

bool8 lf dirpresent; /* True when directory is in xy 

/* memory (first file is open) */ 

bool8 lf dirdirty; /* Has the directory changed? al 


}; 


/* Control block for local file pseudo-device */ 


struct lflcblk ( /* Local file control block xy 
/* (one for each open file) £4 

byte lfstate; /* Is entry free or used */ 
did32 lfdev; /* device ID of this device * 
sid32 lfmutex; /* Mutex for this file A 
struct ldentry *lfdirptr; /* Ptr to file’s entry in the d 
/* in-memory directory */ 

int32 lfmode; /* mode (read/write/both) uid 
uint32 lfpos; /* Byte position of next byte my 
Pie to read or write */ 

char lfname[LF. NAME LEN]; /* Name of the file */ 
ibid32 lfinum; /* ID of current index block in */ 
gt lfiblock or LF_INULL E 

struct lfiblk lfiblock; /* In-mem copy of current index */ 
{* block */ 

dbid32 1fdnum; /* Number of current data block */ 


FE in lfdblock or LF_DNULL E 
char lfdblock[LF BLKSIZ]; /* in-mem copy of current data */ 
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/* block #7 
char *lfbyte; /* Ptr to byte in lfdblock or */ 
/* address one beyond lfdblock */ 
/* if current file pos lies */ 


£* outside lfdblock */ 
bool8 lfibdirty; /* Has lfiblock changed? Sri 
bool8 lfdbdirty; /* Has lfdblock changed? ey 
}; 
extern struct lfdata Lf data; 
extern struct lflcblk lfltab[]; 
/* Control functions */ 
#define LF_CTL_DEL F_CTL_DEL /* Delete a file ef 
#define LF_CTL_TRUNC F_CTL_TRUNC /* Truncate a file sy 
#define LF_CTL_SIZE F_CTL_SIZE /* Obtain the size of a file wy 


如 上 所 示 ， 每 个 索引 块 包含 指向 下 一 索引 块 的 指针 。 偏 移 量 〈offset) 标识 文件 中 被 索引 的 最 低位 
置 ， 同 时 索引 块 包含 16 个 指向 数据 块 的 指针 的 数组 。 也 就 是 说 ， 数 组 中 每 个 项 给 出 了 数据 块 在 物理 磁 
盘 上 的 扇 区 号 。 因 为 一 个 鹿 区 512 FIR, ， 所 以 一 个 索引 块 可 索引 16 个 512 字 节 的 数据 块 ， 共 8192 F 
节 的 数据 。 

给 出 一 个 索引 块 的 地 址 ， 软 件 如 何 知道 到 哪里 寻找 索引 块 ? 索引 块 是 连续 的 ， 占 用 了 从 LF_ 
AREA IB 扇 区 开始 的 连续 磁盘 扇 区 。 在 我 们 的 设计 中 ， 目 录 占 用 磁盘 块 0， 意 味 着 索引 区 从 肩 区 1 开 
d. FAK, 索引 块 0 ~7 存储 在 扇 区 1, 8 ~ 15 存储 在 扇 区 2， 以 此 类 推 。 内 联 函 数 ib2sect 把 一 个 索引 
块 号 转换 为 正确 的 扇 区 号 ， 内 联 函 数 ib2disp 把 一 个 索引 块 号 转换 为 到 物理 磁盘 块 上 的 字 节 偏 移 。 两 个 
函数 都 可 以 在 上 述 lfilesys.h 文件 中 找到 。 


19.6 清空 索引 块 (lfibclear ) 


当 从 空闲 块 中 分 配 一 个 索引 块 时 ， 文 件 系统 必须 把 索引 块 读 和 内存 并 且 清 空 索引 块 以 删除 旧 数据 。 
尤其 是 ， 所 有 的 数据 块 指针 必须 设置 为 空 值 (null value) ， 从 而 保证 它们 不 会 与 合法 指针 混淆 。 而 且 ， 
索引 块 中 的 偏 移 量 必须 赋予 合适 的 文件 偏 移 量 。 函 数 lfibclear 清空 一 个 索引 块 ， 该 段 代 码 在 文件 Ifb- 


clear.c 中 。 


/* lfibclear.c - lfibclear */ 


#include <xinu.h> 


rie LEI iI RL 
* lfibclear -- clear an in-core copy of an index block 
cr Sn SIVE SII EIZO III TOCE CORE it ar it Grit tatc dus nini utr A Red wr OE: SECC METE nda a Ii 
Kf 
void lfibclear( 
struct lfiblk *ibptr, /* address of i-block in memory */ 
int32 offset /* file offset for this i-block */ 
) 
{ 
int 32 ir /* indexes through array xj 
ibptr-»ib offset = offset; /* assign specified file offset */ 


for (i=0 ; i«LF IBLEN ; i++) ( /* clear each data block pointer*/ 
ibptr-»ib dba[i] = LF DNULL; 

} 

ibptr->ib_next = LF_INULL; /* set next ptr to null 27 
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19.7 获取 索引 块 ( lfibget) 


为 了 把 一 个 索引 块 读 和 人 内存， 系统 必须 把 索引 块 号 映射 到 物理 磁盘 块 地 址 ， 读 取 物 理 磁 盘 块 ， 从 
物理 块 中 的 合适 区 域 复制 到 指定 内 存 。 文 件 lfibget.c 包含 了 实现 代码 ， 它 使 用 内 联 函 数 ib2sect 将 索引 
块 号 转换 为 磁盘 扇 区 号 ， 函 数 ib2disp 计算 索引 块 在 磁盘 局 区 上 的 位 置 。 420 


/* lfibget.c - lfibget */ 


#include <xinu.h> 


/* ——————————————————————————————————————————————lM € 
lfibget -- get an index block from disk given its number (assumes 
* mutex is held) 
| ———— —— ———————ÁÀ————— iene 
*/ 3 
void lfibget( 
did32 diskdev, /* device ID of disk to use ud 
ibid32 inum, /* ID of index block to fetch #7 
struct lfiblk *ibuff /* buffer to hold index block = 
) 
{ 
char *from, *to; /* pointers used in copying */ 
int32 i: /* loop index used during copy */ 
char dbuff[LF BLKSIZ]; /* ibuff to hold disk block y 
/* Read disk block that contains the specified index block */ 
read(diskdev, dbuff, ib2sect(inum)); 
/* Copy specified index block to caller's ibuff */ 
from = dbuff + ib2disp(inum); 
to = (char *)ibuff; 
for (i=0 ; i<sizeof(struct lfiblk) ; i++) 
*to++ = *from++; 
return; 
à 


19.8 存储 索引 块 (Ifibput) 


与 获取 索引 块 相 比 ， 存 储 索引 块 的 操作 更 加 复杂 ， 因 为 要 存储 一 个 索引 块 ， 必 须 首 先 读 取 相 应 的 
磁盘 扇 区 ， 将 要 存储 的 索引 块 复制 到 该 磁盘 扇 区 中 的 合适 位 置 ， 然 后 将 此 磁盘 户 区 写 回 到 磁盘 中 。 该 
部 分 的 实现 代码 在 文件 fbput.c 中 ， 其 中 包含 了 一 个 与 芥 bget 函数 相 类 似 的 Ifibput PRW, 421 
/* lfibput.c - lfibput */ 


#include <xinu.h> 


/* 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 二 一 一 一 一 一 一 一 一 
* lfibput -- write an index block to disk given its ID (assumes 
i: mutex is held) 
retrostanti (E SERE RE RE 
"f 
status lfibput( 
did32 diskdev, /* ID of disk device */ 
ibid32 inum, /* ID of index block to write ad 


struct lfiblk *ibuff /* buffer holding the index blk */ 
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dbid32  diskblock; /* ID of disk sector (block) */ 
char *from, *to; /* pointers used in copying wf 
int32 a5 /* loop index used during copy */ 
char dbuff[LF BLKSIZ]; /* temp. buffer to hold d-block */ 


/* Compute disk block number and offset of index block */ 

diskblock = ib2sect(inum); 

to = dbuff + ib2disp (inum); 

from = (char *)ibuff; 

/* Read disk block */ 

if (read(diskdev, dbuff, diskblock) -- SYSERR) ( 
return SYSERR; 

/* Copy index block into place */ 

for (i20 ; i«sizeof(struct lfiblk) ; i++) { 
*to++ = *fromt+; 

/* Write the block back to disk */ 


write(diskdev, dbuff, diskblock); 
return OK; 





19.9 从 空闲 链表 中 分 配 索引 块 (lfiballoc ) 


当 文 件 需 要 索引 时 ， 文 件 系统 从 空闲 链表 中 为 此 文件 分 配 一 个 索引 块 。 函 数 划 balloc 负责 获取 下 一 
个 空闲 的 索引 块 并 返回 它 的 人 D。 该 函数 在 文件 二 balloc.c 中 ， 假 设 文件 系统 目录 的 副本 已 经 读 人 到 内 存 
中 ， 通 过 Lf data.lf dir 全 局 变量 来 表示 该 副本 。 

/* lfiballoc.c - lfiballoc */ 


#include <xinu.h> 


/一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
* lfiballoc - allocate a new index block from free list on disk 
si (assumes directory mutex held) 
i i 
SI 
ibid32 lfiballoc (void) 
{ 
ibid32  ibnum; /* ID of next block on the free list wy 
struct lfiblk iblock; /* buffer to hold index block m 


/* Get ID of first index block on free list */ 


ibnum - Lf data.lf dir.lfd ifree; 

if (ibnum -- LF INULL) ( /* ran out of free index blocks */ 
panic("out of index blocks"); 

H 

lfibget(Lf data.lf dskdev, ibnum, &iblock); 


/* Unlink index block from the directory free list */ 
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Lf data.lf dir.lfd ifree = iblock.ib next; 
/* Write a copy of the directory to disk after the change */ 


write(Lf data.lf dskdev, (char *) &Lf data.lf dir, LF AREA DIR); 
Lf data.lf dirdirty - FALSE; 


return ibnum; 


) 


19.10 ”从 空闲 链表 中 分 配 数 据 块 (Ifdballoc ) 


因为 索引 块 包含 了 一 个 名 为 “next” 的 指针 字段 ， 所 以 将 索引 块 加 入 空闲 链表 的 操作 比较 简单 。 
但 是 ， 因 为 数据 块 通常 无 法 包含 指针 字段 ， 所 以 对 于 数据 块 而 言 ， 空 闲 链表 通常 并 不 是 显 式 存在 的 。 
Xinu 系统 在 设计 时 使 用 了 单 向 的 空闲 链表 ， 这 意味 着 仅 需 要 使 用 一 个 指针 。 如 果 数 据 块 位 于 空闲 链表 
中 ,那么 系统 使 用 数据 块 的 前 4 个 字 节 存储 指向 空闲 链表 中 下 一 个 数据 块 的 指针 。 文 件 Mfilesys.h 中 定 
义 了 一 个 名 为 lfdbfree 的 结构 ， 它 描述 空闲 链表 中 数据 块 的 具体 格式 。 当 需要 从 空闲 链表 中 获取 数据 块 
的 时 候 ， 文 件 系 统 就 使 用 该 结构 体 的 定义 。 而 一 旦 将 数据 块 分 配 到 文件 中 并 从 空闲 链表 中 删除 ， 该 数 
据 块 就 又 可 以 被 看 做 是 一 个 字 节 数组 。 

函数 lfdballoc 负责 从 空闲 链表 中 分 配 数据 块 并 返回 该 数据 块 号 ， 从 中 我 们 可 以 看 到 系统 是 如 何 使 


用 结构 Ifdbfree 的 。 该 代码 在 文件 lfdballoc.c 中 。 
/* lfdballoc.c -  lfdballoc */ 


#include <xinu.h> 


#define DFILL ‘+’ /* char. to fill a disk block */ 
/* ——————Ó——————————— ———— NI ae a ee a et 
* lfdballoc - allocate a new data block from free list on disk 

* (assumes directory mutex held) 
RE 
EJ 


dbid32 lfdballoc ( 
struct lfdbfree *dbuff /* addr. of buffer to hold data block */ 
) 


dbid32  dnum; /* ID of next d-block on the free list */ 
int32 retval; /* return value */ 


/* Get the ID of first data block on the free list */ 


dnum = Lf data.lf dir.lfd dfree; 

if (dnum == LF DNULL) { /* ran out of free data blocks */ 
panic("out of data blocks"); 

} 

retval = read(Lf data.lf dskdev, (char *)dbuff, dnum); 

if (retval == SYSERR) ( 
panic("lfdballoc cannot read disk block\n\r"); 

} 

/* Unlink d-block from in-memory directory */ 


Lf data.lf dir.lfd dfree = dbuff-»1f nextdb; 
write(Lf data.lf dskdev, (char *)&Lf data.lf dir, LF AREA DIR); 
Lf data.lf dirdirty - FALSE; 


/* Fill data block to erase old data */ 


memset((char *)dbuff, DFILL, LF BLKSIZ); 
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return dnum; 
} 
另 一 个 相关 的 函数 是 lfdbfree.c 文件 中 的 ldqbfree， 该 函数 的 作用 是 向 空闲 链表 添加 一 个 数据 块 。 


/* lfdbfree.c - lfdbfree */ 


#include «xinu.h» 


/* mmm, n — à p e i € us ts M ir n eH en quà € OD unn n ne a —!— 9 — a  — ——Ó 让 
* ]fdbfree -- free a data block given its block number (assumes 
* directory mutex is held) 
WIR. e E See Ce EM E EE ice qa acp Seo ME E RITA eco Se: 
*y 
status lfdbfree( 
did32 diskdev, /* ID of disk device to use EY 
dbid32 dnum /* ID of data block to free Sy 
) 
{ 
struct lfdir *dirptr; /* pointer to directory */ 
struct lfdbfree buf; /* buffer to hold data block tf 
dirptr = &Lf_data.lf_dir; 
buf.lf_nextdb = dirptr->lfd_dfree; 
dirptr->lfd_dfree = dnum; 
write(diskdev, (char *)&buf, dnum) ; 
write(diskdev, (char *)dirptr, LF AREA DIR); 
return OK; 
) 


为 了 将 数据 块 放 人 空闲 链表 中 ， 函 数 ldbfree 首先 会 将 该 数据 块 指向 当前 的 空闲 链表 ， 然 后 将 当前 
空闲 链表 指向 该 数据 块 。 由 于 插入 了 一 个 指针 ， 所 以 该 数据 块 必须 写 和 磁盘 中 ， 又 由 于 目录 的 空闲 链 
表 被 修改 了 ， 所 以 该 目录 的 副本 也 必须 写 入 到 磁盘 中 。 


19.11 使 用 设备 无 关 的 VO 函数 的 文件 操作 

文件 系统 必须 在 执行 进程 与 磁盘 文件 之 间 建 立 联系 ， 这 样 才能 保证 相关 的 文件 操作 (例如 ，read 
和 write) 能 够 映射 到 正确 的 文件 上 。 而 文件 系统 如 何 正确 实现 这 种 映射 操作 依赖 于 文件 系统 大 小 和 实 
际 的 需要 。 为 了 保证 文件 系统 尽 可 能 地 小 ， 我 们 使 用 系统 中 已 经 存在 的 设备 转换 机 制 (device switch 
mechanism) ， 而 不 是 引入 新 的 函数 。 

假设 设备 转换 表 (device switch table) 中 已 经 包含 了 许多 文件 伪 设 备 ( pseudo- device) ， 并 且 每 个 
伪 设备 都 能 用 来 控制 一 个 打开 的 文件 。 与 常规 的 设备 相 类 似 ， 伪 设备 也 有 一 组 驱动 函数 ， 例 如 read, 
write, gete, pute, seek 和 close 操作 。 当 进程 需要 打开 一 个 磁盘 文件 时 ， 文 件 系统 寻找 一 个 当前 未 使 用 
的 伪 设 备 ， 设 置 此 伪 设 备 的 控制 块 (control block) ， 然 后 给 调用 者 返回 此 伪 设 备 的 ID。 文件 打开 之 后 ， 
进程 使 用 该 伪 设备 ID 来 执行 getc read, pute, write 和 seek 操作 。 我 们 知道 设备 转换 机 制 将 高 级 操作 
映射 到 物理 设备 相应 的 驱动 函数 ， 与 此 类 似 ,设备 转换 机 制 也 会 将 高 级 操作 映射 到 文件 伪 设 备 相 应 的 
驱动 函数 。 最 后 ， 在 文件 使 用 结束 后 ， 进 程 会 调用 close 来 断 开 连 接 ， 这 样 该 伪 设 备 就 可 以 被 其 他 文件 
使 用 。 稍 后 ， 我 们 通过 代码 来 说 明 具体 的 细节 。 

设计 一 个 伪 设 备 的 驱动 与 设计 一 个 常规 硬件 设备 的 驱动 基本 相同 。 与 其 他 设备 类 似 ， 伪 设备 的 驱 
动 为 每 一 个 伪 设 备 创建 一 个 控制 块 。 文 件 伪 设 备 控制 块 定义 可 在 文件 ltilesys.h 的 结构 teblk 中 。 从 概 
念 上 ,该 控制 块 包含 了 两 类 字段 : 存储 伪 设 备 信息 的 字段 和 存储 来 自 磁 盘 信 息 的 字段 。 字 段 lfstate 和 
Ifmode 是 前 一 种 类 型 : lfstate 字段 表示 该 设备 是 否 正在 被 使 用 ，lfmode 字段 表示 该 文件 是 否 因为 需要 
读 、 写 操作 而 已 经 被 打开 。 字 段 二 block 和 lfdblock 用 于 存储 来 自 磁盘 的 信息 。 字 段 Mfiblock 和 lfdblock 
是 后 一 种 类 型 : 当 一 个 文件 正 被 读 、 写 时 ， 需 要 包含 一 份 索引 块 的 副本 和 数据 块 的 副本 ， 同 时 还 应 该 
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包含 一 个 表示 文件 当前 位 置 (以 字 节 表示 ) 的 副本 (使 用 lfpos 字段 来 表示 ) 。 
当 文 件 被 打开 时 ,位置 (控制 块 中 的 Mpos FE) 被 赋予 值 0。 该 位 置 会 随 着 进程 读数 据 或 写 数据 而 
不 断 增加 。 通 过 调用 seek 函数 ， 进 程 可 以 将 位 置 移动 到 文件 中 任意 的 地 方 ， 并 同时 会 更 新 lfpos 的 值 。 


19.12 文件 系统 的 设备 设置 和 函数 名 称 
打开 一 个 文件 并 为 之 分 配 一 个 伪 设 备 进行 读 、 写 操作 ， 我 们 需要 使 用 什么 样 的 接口 呢 ? 因为 Xinu 
系统 需要 将 所 有 的 函数 都 映射 到 设备 空间 中 ， 所 以 本 地 文件 系统 会 定义 一 个 名 为 LFILESYS 的 本 地 文 
件 主 设备 (master local file device) 。 调 用 LFILESYS 设备 的 open 函数 就 意味 着 系统 会 分 配 一 个 伪 设 备 ， [426] 
然后 返回 此 伪 设 备 的 人 D。 文 件 伪 设 备 以 LFILE0、LFILE1 、…， 来 命名 ,但 需要 注意 的 是 ， 这 些 名 字 只 
会 在 配置 文件 中 使 用 。 图 19-3 显示 了 主 设备 和 伪 设 备 是 如 何 进行 设置 的 。 


/* 本 地 文件 系统 主 设备 类 型 */ 








lfs: on disk 
-i lfsmit -o lfsOpen -c ioerr 
-r ioerr -g ioerr -p ioerr 
-w ioerr -s ioerr -n rfsControl 
-intr NULL 


/* 本 地 文件 伪 设 备 类 型 */ 








lfl: on lfs 
-i lflInit -o ioerr -c lflClose 
-r lflRead -g lflGetc -p lflPutc 
-w 1flWrite -s lflSeek -n ioerr 
-intr NULL 





图 19-3 ”对 本 地 文件 系统 主 设备 类 型 的 设置 和 对 本 地 文件 伪 设 备 类 型 的 设置 
如 图 19-3 所 示 ， 文 件 系 统 主 设备 驱动 函数 的 名 字 都 以 lfs 开头 ， 而 文件 伪 设 备 驱动 函数 的 名 字 都 
以 由 开 头 。 之 后 我 们 还 将 会 看 到 ， 这 两 种 类 型 设备 的 驱动 函数 所 使 用 的 辅助 函数 的 名 字 都 以 耻 开 头 。 


19.13 ”本 地 文件 系统 打开 函数 (IfsOpen) 
图 19-4 显示 了 对 本 地 文件 主 设备 的 设置 以 及 对 多 个 本 地 文件 伪 设 备 的 设置 。 因 为 每 打开 一 个 文件 
都 要 使 用 一 个 伪 设 备 ， 所 以 本 地 文件 伪 设 备 的 总 量 限 定 /* 本 地 文 件 系统 主 设 备 系统 中 只 有 一 个 ) */ 
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以 上 设置 表明 进程 可 以 使 用 主 设备 来 打开 本 地 文 | /* 未 地 文件 伪 设 备 〔 系 统 中 有 多 个 ) */ 
件 ， 然 后 使 用 伪 设 备 存 取 文 件 。 例如， 打开 一 个 名 为 LFILEO is 1f1 on lfs 
myfile 的 文件 进行 读 、 写 操作 ， 有 如 下 的 代码 : LFILEI is 1f1 on lfs 
fd = open(LFILESYS, "myfile", "rw"); LFILE2 is 1£1 on lfs 
LFILE3 is lfl on lfs 
假设 成 功 打 开 了 该 文件 ， 那 么 就 可 以 使 用 描述 符 fd 向 文 LFILEA is 1f1 on lfs 
-x LFILES is lfl on lf 
件 中 写 数据 ， Leo M LFILE6 is 1fl de » 

.. code to fill buffer ... 图 19-4 对 本 地 文件 系统 主 设备 的 设置 和 
fd = write(fd, buffer, 1500); 多 个 本 地 文件 伪 设备 的 设置 


设备 LFILESYS 只 用 于 打开 文件 。 因 此 ,文件 系统 主 设备 的 驱动 只 需要 实现 open 和 init， 所 有 其 他 
的 VO 操作 都 映射 为 ioerr, PK lfsOpen 实现 open 操作 ， 该 函数 在 文件 lfsOpen.c 中 。 
/* lfsOpen.c -  lfsOpen */ 


#include «xinu.h» 
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devcall lfsOpen ( 


struct dentry  *devptr, /* entry in device switch table */ 
char *name, /* name of file to open wy 
Char *mode /* mode chars: 'r' 'w' ‘o’ 'n' */ 
) 
struct lfdir *dirptr; /* ptr to in-memory directory *j 
char *from, *to; /* ptrs used during copy *y 
char *nam, *cmp; /* ptrs used during comparison  */ 
int32 i; /* general loop index */ 
did32 lfnext; /* minor number of an unused */ 
p file pseudo-device */ 
struct ldentry *ldptr; /* ptr to an entry in directory */ 
struct lflcblk *lfptr; /* ptr to open file table entry */ 
bool8 found; /* was the name found? li 
int32 retval; /* value returned from function */ 
int32 mbits; /* mode bits * 


/* Check length of name file (leaving space for NULLCH */ 


from - name; 
for (i20; i« LF NAME LEN; i++) ( 
if (*from++ == NULLCH) { 


break; 
} 
} 
if (i >= LF NAME LEN) ( /* name is too long */ 
return SYSERR; 
} 


/* Parse mode argument and convert to binary */ 


mbits = lfgetmode (mode); 
if (mbits == SYSERR) { 
return SYSERR; 


/* If named file is already open, return SYSERR */ 


lfnext = SYSERR; 
for (i=0; i«N1fl; i++) ( /* search file pseudo-devices 
lfptr - &lfltab[i]; 
if (lfptr->lfstate == LF FREE) { 
if (lfnext -- SYSERR) ( 
lfnext - i; /* record index */ 
} 


continue; 


/* Compare requested name to name of open file */ 
nam = name; 
cmp = lfptr->lfname; 
while(*nam != NULLCH) { 
if (*nam != *cmp) ( 
break; 


wy 


/* See if comparison succeeded */ 


if ( (*nam==NULLCH) && (*cmp -- NULLCH) 
return SYSERR; 


) 


if (lfnext == SYSERR) ( /* no slave file devices are available 


return SYSERR; 


/* Obtain copy of directory if not already present in memory 


dirptr - &Lf data.lf dir; 
wait (Lf data.lf mutex); 
if (! Lf data.lf dirpresent) ( 


retval = read(Lf data.lf dskdev, (char *)dirptr,LF AREA DIR); 


if (retval -- SYSERR ) ( 
signal(Lf data.lf mutex); 
return SYSERR; 


) 
Lf data.lf dirpresent = TRUE; 


/* Search directory to see if file exists */ 


found - FALSE; 

for (i20; i<dirptr->lfd_nfiles; i++) { 
ldptr = &dirptr->1fd_files[i]; 
nam = name; 
cmp = ldptr-»1d name; 
while(*nam != NULLCH) ( 

if (*nam !- *cmp) ( 
break; 


nam++; 
cmp++; 
} 
if ( (*nam--NULLCH) && (*cmp--NULLCH) ) { /* name found 
found = TRUE; 
break; 


} 


/* Case #1 - file is not in directory (i.e., does not exist) 


if (! found) { 
if (mbits & LF_MODE O) { /* file *must* exist 
signal(Lf data.lf mutex); 
return SYSERR; 
H 


/* Take steps to create new file and add to directory 
/* Verify that space remains in the directory */ 


if (dirptr-»1fd nfiles >= LF NUM DIR ENT) { 
signal(Lf data.lf mutex); 
return SYSERR; 

H 


/* Allocate next dir. entry & initialize to empty file 


) 


Ez 


Ey 


*/ 


*/ 
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ldptr = &dirptr-»1fd files[dirptr-»lfd nfiles++]; 


ldptr-»1d size = 0; 
from = name; 
to = laptr->ld name; 


while ( (*to++ = *from++) != NULLCH ) { 
} 
laptr->la ilist = LF INULL; 
/* Case #2 - file is in directory (i.e., already exists) / 


} else if (mbits & LF_MODE_N) { 


return SYSERR; 
} 


/* file must not exist */ 
signal (L£_data.1f£_mutex) ; 


/* Initialize the local file pseudo-device */ 


lfptr = &lfltab[lfnext]; 
lfptr->lfstate = LF USED; 


lfptr->lfdirptr = ldptr; /* point to directory entry * 


lfptr->lfmode = mbits & LF MODE RW; 


/* File starts at position 0 */ 
lfptr->lfpos = 0; 


to = lfptr->lfname; 
from = name; 


while ( (*to = *from++) != NULLCH ) { 

} 

/* Neither index block nor data block are initially valid */ 
lfptr->lfinum = LF_INULL; 

lfptr->lfanum = LF_DNULL; 

/* Initialize byte pointer to address beyond the end of the */ 
Vini buffer (i.e., invalid pointer triggers setup) */ 


lfptr->lfbyte = &lfptr->lfdblock[LF_BLKSIZ]; 


lfptr->lfibdirty = FALSE; 
lfptr->lfdbdirty FALSE; 


il 


Signal(Lf data.lf mutex); 


return lfptr->lfdev; 
) 


在 验证 了 文件 名 字 的 长 度 有 效 后 ，lfsOpen 函数 调用 lfgetmode RYKE (mode) 参数 并 将 其 


转换 为 一 组 二 进 制 位 。 模 式 参数 由 空 符号 结尾 的 字 
符 串 组 成 ， 其 中 包含 了 0 个 或 多 个 如 图 19-5 所 示 
的 字符 。 

模式 参数 字符 串 中 的 字符 不 能 重复 ， 同 时 使 用 
F “o” M “n” BEDAR BIr, AREE 
没有 使 用 字符 “r” 也 没有 使 用 字符 “w”，lfget- 
mode 将 默认 同时 允许 读 操作 和 写 操作 。 该 部 分 代 
码 在 文件 lfgetmode.c 中 。 











| “打开 文件 进行 读 操作 












打开 文件 进行 写 操作 
文件 必须 为 “old”( 即 必须 存在 ) 








图 19-5 








文件 必须 为 “new”( 即 必须 不 存在 ) 





模式 参数 中 允许 使 用 的 字符 串 及 其 含义 
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/* lfgetmode.c - lfgetmode */ 


#include <xinu.h> 


/* aa TTT a nS He Ne nn i i een ath Bi Wate pn SO i i 
* lfgetmode - parse mode argument and generate integer of mode bits 
Wicca i iaia Ss TN TI Hae eS bie a A Sts em SES EO Ge ar ——————— 
ey 
int32 lfgetmode ( 
char *mode /* string of mode characters Ty 
) 
{ 
int32 mbits; /* mode bits to return ia 
char ch; /* next char in mode string ey 
mbits = 0; 
while ( (ch = *mode++) != NULLCH) { 
switch (ch) { 
case 'r': if (mbits&LF MODE R) ( 
return SYSERR; 
} 
mbits |= LF_MODE_R; 
continue; 
case 'w': if (mbits&LF MODE W) ( 
return SYSERR; 
} 
mbits |= LF_MODE_W; 
continue; 
case 'o': if (mbits&LF MODE O || mbits&LF MODE N) { 
return SYSERR; 
} 
mbits |= LF MODE O; 
break; 
case 'n': if (mbits&LF MODE O || mbits&LF MODE N) ( 
return SYSERR; 
} 
mbits |= LF_MODE_N; 
break; 
default: return SYSERR; 
) 
) 
/* If neither read nor write specified, allow both */ 
if ( (mbits&LF MODE RW) == 0 ) ( 
mbits |- LF MODE RW; 
) 
return mbits; 
} 


模式 参数 解析 完成 后 ，lfsOpen 进行 如 下 检验 : 检验 文件 是 否 还 未 打开 ， 检 验 是 否 可 以 获取 到 一 个 
文件 伪 设 备 ， 同 时 检验 文件 系统 目录 中 该 文件 是 否 已 经 存在 。 如 果 该 文件 已 经 存在 (同时 模式 参数 允 
许 打 开 已 存在 的 文件 ) ，lfsOpen 将 设置 文件 伪 设 备 的 控制 块 。 如 果 该 文件 不 存在 (同时 模式 参数 允许 
创建 新 文件 ) ，lfsOpen 在 文件 系统 目录 中 为 之 分 配 一 个 条 目 ， 然 后 设置 文件 伪 设 备 的 控制 块 。 最 初 的 
文件 位 置 设置 为 0。 控 制 块 中 的 finum 字段 和 lfdnum 字段 设置 为 null 以 表示 索引 块 和 数据 块 当 前 还 未 
被 使 用 。 更 重要 的 是 ， 将 Mbyte 字段 设置 为 一 个 超出 数据 块 缓冲 区 未 端的 值 。 我 们 会 发 现 ， 设 置 byte 
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是 非常 重要 的 ， 因 为 代码 在 获取 数据 时 将 会 使 用 到 这 个 值 。 
当 Mbyte 在 lfdblock 中 包含 地 址 时 ， 它 指向 的 字 节 表 示 了 lfpos 给 定位 置 上 文件 中 的 数据 。 
当 lfbyte 包含 超出 了 lfdblock 的 地 址 时 ，lfdblock 中 的 值 不 能 使 用 。 
以 上 过 程 会 数据 传输 函数 中 有 具体 说 明 ， 例 如 ， 耻 Gete RŽ Pute 函数 。 


19.14 关闭 文件 伪 设 备 (IflClose ) 

当 应 用 程序 结束 使 用 文件 时 ， 它 调用 close 来 终止 文件 的 使 用 ， 并 且 使 这 个 文件 伪 设 备 对 其 他 用 户 可 
用 。 理 论 上 ， 关 闭 一 个 伪 设 备 很 简单 : 只 要 改变 设备 的 状态 ， 表 明 它 没有 被 使 用 。 但 是 ， 实 际 上 ， 因 为 
控制 块 可 能 包含 没有 被 写 入 文件 的 数据 ， 所 以 缓冲 使 关闭 操作 变 得 复杂 。 因 此 ， 函 数 则 Close 必须 检查 控 
制 块 的 各 位 来 确定 索引 块 或 数据 块 在 被 写 人 磁盘 之 后 它们 的 内 容 是 否 已 经 改变 了 。 如 果 发 生 了 改变 ， 
llClose 需 要 在 改变 控制 块 状态 之 前 ， 调 用 函数 fush 将 改变 写 入 磁盘 。 文 件 Close. 包含 以 下 代码 。 


/* lflClose.c =~ 1f1Close.c */ 


#include <xinu.h> 


/ Wicca re A i 
* lflClose -- close a file by flushing output and freeing device entry 
(a EOM NUMINIS WE S MEDIN LANIER SII III OMS UU QUIC I CERO LIA PN SEL SITR RSI SEA 
"a 

devcall lflClose ( 

struct dentry *devptr /* entry in device switch table */ 
) 
( 
struct 1fleblk *lfptr; /* ptr to open file table entry */ 
/* Obtain exclusive use of the file */ 
lfptr - &lfltab[devptr-»dvminor]; 
wait(lfptr-»1fmutex); 
/* If file is not open, return an error */ 
if (lfptr->lfstate !- LF USED) { 
signal (lfptr-»1lfmutex); 
return SYSERR; 
} 
/* Write index or data blocks to disk if they have changed */ 
if (lfptr->lfdbdirty || lfptr->lfibdirty) { 
lfflush(lfptr); 
} 
/* Set device state to FREE and return to caller */ 
lfptr->lfstate = LF_FREE; 
signal(lfptr-»1fmutex); 
return OK; 
) 


19.15 刷新 磁盘 中 的 数据 (Ifflush) 

函数 ush 会 像 预期 的 那样 操作 。 它 接收 一 个 指向 伪 设 备 控制 块 的 指针 作为 参数 ， 并 使 用 这 个 指 
针 来 检查 控制 块 中 的 “ 胜 ”位 ” 。 如 果 索 引 块 改变 了 ，lfmush 使 用 Hibput 函数 将 副本 写 人 磁盘 ; 如果 数 
据 块 改变 了 ，lfflush 使 用 write 函数 将 副本 写 信 磁盘。 字段 linum 和 lfdnum 包含 使 用 的 索引 块 号 和 数据 
块 号 。 这 段 代 码 包含 在 fushe 文件 中 。 





O ARM (dirty bit) 指 一 个 被 设置 为 TRUE 的 布尔 值 〈 即 单个 位 ) ， 表 明 数 据 被 修改 过 。 


/* lfflush.c - lfflush */ 


#include <xinu.h> 


/* P ——————————ÓÁ—————— 8 er et ts en eet: ws ep ,et 
* lfflush - flush data block and index blocks for an open file 
* (assumes file mutex is held) 
Wheat itaca eran aa ee 
Th 
status lfflush (人 
struct lflcblk *lfptr /* ptr to file pseudo device 7 
) 
{ 
if (lfptr->lfstate == LF_FREE) { 
return SYSERR; 
} 
/* Write data block if it has changed */ 
if (lfptr->lfdbdirty) { 
write(Lf data.lf dskdev, lfptr->lfdblock, lfptr->lfdnum); 
lfptr->lfdbdirty = FALSE; 
} 
/* Write i-block if it has changed */ 
if (lfptr->lfibdirty) { 
lfibput(Lf data.lf dskdev, lfptr->lfinum, &lfptr->1fiblock) ; 
lfptr->lfibdirty = FALSE; 
} 
return OK; 
} 


19.16 文件 的 批量 传输 函数 (IflWrite, IflRead) 
Xinu 采用 直接 方法 来 写 和 读 取 文件 : 一 个 循环 反复 使 用 适应 的 字符 传输 函数 。 例 如 ， 实 现 了 写 : 
作 的 函数 Write 会 重复 调用 JPute。 文 件 由 Write'e 包含 这 些 代码 : 


/* 1flWrite.c - lfwrite */ 


#include <xinu.h> 


/* ii Rui ia iaia 
* lflWrite -- write data to a previously opened local disk file 
全 
£j 

devcall lflWrite ( 

struct dentry *devptr, /* entry in device switch table */ 
char  *buff, /* buffer holding data to write */ 
int32 count /* number of bytes to write my 
) 
{ 
int32 i; /* number of bytes written x 
if (count < 0) ( 
return SYSERR; 
) 
for (i20; i«count; i++) ( 
if (lflPutc(devptr, *buff++) == SYSERR) { 
return SYSERR; 
} 
} 
return count; 
} 
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函数 有 HRead 实现 了 读 操作 。 为 了 满足 一 个 请 求 ，MIRead 重复 调用 tcete， 每 次 调用 接收 一 个 字 
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节 ， 并 将 这 个 字 节 放 在 调用 者 缓冲 区 的 下 一 个 位 置 。 当 它 到 达 文 件 的 末尾 (end-of-file) 时 ， 由 Cete 3& 
回 常量 EOF。 如 果 当 1Read IKZ] Gete 传 来 的 EOF H}, IffRead 已 经 提取 了 一 个 或 多 个 字 节 的 数据 ， 那 
么 IRead 就 停止 循环 ， 返 回 已 经 读 取 的 字 节 数 。 如 果 当 到 达 文 件 末尾 时 ， 没 有 发 现 数据 ， 那 么 IRead 
给 调用 者 返回 EOF。 文 件 IffRead.c 包含 这 些 代码 。 


/* lflRead.c -  lfRead */ 


#include <xinu.h> 


/ *%--___.cuu=———=---_-csccnccmaco-c-cccncoccnao—__—————————————————————————_—- 
* 1flRead -- read from a previously opened local file 
一- 
"f 

devcall lflRead ( 

struct dentry *devptr, /* entry in device switch table */ 
char *buff, /* buffer to hold bytes * 
int 32 count /* max bytes to read */ 
) 
L 
uint32 numread; /* number of bytes read xi 
int32  nxtbyte; /* character or SYSERR/EOF #1 
if (count < 0) { 
return SYSERR; 
} 
for (numread=0 ; numread < count ; numread++) ( 
nxtbyte = lflGetc (devptr); 
if (nxtbyte -- SYSERR) ( 
return SYSERR; 
) else if (nxtbyte -- EOF) ( /* EOF before finished */ 
if (numread == 0) ( 
return EOF; 
) else ( 
return numread; 
) 
) else ( 
*buff++ = (char) (0xff & nxtbyte); 
} 
} 
return numread; 
} 


19.17 在 文件 中 查找 一 个 新 位 置 (IflSeek) 

进程 可 以 调用 seek 来 改变 文件 中 下 一 个 读 取 的 位 置 。 我 们 的 系统 使 用 函数 ltisSeek 来 实现 seek， 并 且 限 
制 其 只 能 访问 文件 的 有 效 位 置 ( 它 与 UNIX 系统 不 同 ，UNIX 系统 允许 应 用 程序 寻找 超过 文件 结尾 的 位 置 ) 。 

查找 一 个 新 的 位 置 包括 改变 文件 控制 块 中 的 lfpos 字段 ， 将 字段 lfbyte 设置 为 一 个 超过 lfdblock 的 地 
址 (根据 上 面 的 不 变量 ,这 意味 着 直到 索引 块 和 数据 块 在 位 置 上 时 ， 指 针 才 能 被 用 来 提取 数据 )。 文 
件 IflSeek.c 包含 这 些 代码 。 

/* lflSeek.c - lfSeek */ 


#include <xinu.h> 


* lfseek - seek to a specified position in a file 
teschi ISEE“ eee 
ai 
devcall 1f1Seek ( 
struct dentry *devptr, /* entry in device switch table */ 
uint32 offset /* byte position in the file */ 
) 
{ 


struct lflcblk *lfptr; /* ptr to open file table entry */ 


/* If file is not open, return an error */ 


lfptr = &lfltab[devptr-»dvminor]; 

wait (1fptr->lfmutex); 

if (lfptr->lfstate != LF USED) ( 
signal(lfptr->lfmutex); 
return SYSERR; 


/* Verify offset is within current file size */ 
if (offset > lfptr->lfdirptr->ld size) { 
signal(lfptr->lfmutex); 
return SYSERR; 
} 


/* Record new offset and invalidate byte pointer (i.e., 
{* force the index and data blocks to be replaced if 


AF an attempt is made to read or write) 


lfptr->lfpos = offset; 
lfptr->lfbyte = &lfptr->lfdblock[LF_BLKSIZ]; 


signal (lfptr->1fmutex) ; 
return OK; 
} 


19.18 从 文件 中 提取 一 个 字 节 (IflGetc) 
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一 旦 一 个 文件 打开 ， 索 引 块 和 数据 块 正确 地 载 人 内 存 ， 从 文件 中 读 取 一 个 字 节 就 很 简单 : 它 包括 
将 fbyte 作为 指向 字 节 的 指针 ， 提 取 字 节 ， 并 将 指针 移 到 下 一 个 字 节 。 函 数 得 Cete 完成 这 个 操作 ， 相 


关 代 码 在 文件 liGcetc.c 中 。 


/* lflGetc.c = 1fGete */ 


#include <xinu.h> 


/* EIA ms unc ag See Eye Ru UMS MN imu uu mum ee Db p Dci tn c'e Di un AR RESI eed aes emm eem M GN smt uum oe En ir E 
* lflGetc -- Read the next byte from an open local file 
SI ain Sie MP OU TERT Ei irc biz Eo CERO TERRE a 
*/ 
devcall lflGetc ( 
struct dentry *devptr /* entry in device switch table */ 
) 
( 
struct lflcblk *lfptr; /* ptr to open file table entry */ 
struct ldentry *ldptr; /* ptr to file’s entry in the */ 
/* in-memory directory ui 
int32 onebyte; /* next data byte in the file */ 


/* Obtain exclusive use of the file */ 


lfptr - &lfltab[devptr-»dvminor]; 
wait (1fptr->lfmutex); 
/* If file is not open, return an error */ 


if (lfptr->lfstate != LF_USED) { 
signal(lfptr->lfmutex); 
return SYSERR; 

} 


/* Return EOF for any attempt to read beyond the end-of-file */ 


ldptr = lfptr->lfdirptr; 
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if (lfptr->lfpos >= ldptr-»1d size) { 
signal (lfptr-»lfmutex); 
return EOF; 


/* If byte pointer is beyond the current data block, */ 
A set up a new data block af 


if (lfptr->lfbyte >= &lfptr->lfdblock[LF_BLKSIZ]) { 
lfsetup(lfptr); 


/* Extract the next byte from block, update file position, and */ 
7* return the byte to the caller */ 


onebyte = Oxff & *lfptr->lfbyte++; 
lfptr->lfpos++; 
signal(lfptr->lfmutex); 
return onebyte; 
} 
如 果 文 件 没有 打开 ， 岂 Getc 就 返回 SYSERR。 如 果 当 前 文件 位 置 超过 了 文件 大 小 ,那么 HGete ik 
回 EOF。 在 其 他 情况 下 ，HMacCetc 检查 指针 ltbyte， 看 它 是 否 超出 了 lfdblock 中 数据 块 的 范围 。 若 超出 了 ， 
IflGete 就 调用 函数 lfsetup 将 正确 的 索引 块 和 数据 块 读 和 内存 。 
一 旦 数据 块 在 内 存 中 ，ltGCetc 就 可 以 提取 一 个 字 节 。 为 了 完成 这 个 操作 ，lCetc 对 lfbyte 进行 解 引 用 ， 
获得 一 个 字 节 并 将 它 放 到 变量 onebyte 中 。 在 把 这 个 字 节 返回 给 调用 者 之 前 ，lfGetc 递增 字 节 指针 和 文件 位 置 。 


19.19 ”改变 文件 中 的 一 个 字 节 (IflPutc) 

函数 HflPutc 将 一 个 字 节 存储 在 文件 当前 位 置 。 与 HiGete 一 样 ， 实 现 数据 传输 很 简单 ， 仅 需要 几 行 
代码 。 指 针 lfbyte 给 出 lfdblock 中 的 一 个 位 置 ， 字 节 必 须 存 储 在 这 个 位 置 上 。 代 码 使 用 指针 来 存储 指定 
的 字 节 ， 递 增 指针 ， 并 设置 lfdbdirty 来 表明 这 个 数据 块 被 改变 了 。 注 意 HflPutc 只 是 把 字符 加 到 内 存 的 
缓冲 区 中 。 每 次 改变 发 生 时 ， 它 并 不 把 缓冲 区 的 内 容 写 回 磁盘 。 只 有 在 当前 位 置 移动 到 下 一 个 磁盘 块 
时 ,缓冲 区 才 复 制 到 磁盘 中 。 

与 有 HGetc 一 样 ，lfiPutc 在 每 次 调用 时 都 要 检查 lfbyte。 如 果 lfbyte 位 于 数据 块 lfdblock 的 外 面 ， 
IflPutc 就 返回 SYSERR, Hm, IflPutc 和 IflGetc 在 处 理 非 法 文件 位 置 方式 上 有 细微 的 不 同 。 如 果 文 件 位 
置 超过 了 文件 的 最 后 一 个 字 节 ，lcete 总 是 返回 EOF。 当 文件 位 置 超过 文件 结尾 多 个 字 节 时 ，llPutc 
返回 SYSERR， 但 是 如 果 位 置 正 好 超过 结尾 一 个 字 节 ， 它 允许 操作 继续 进行 。 就 是 说 ， 它 人 允许 对 文件 
进行 扩展 。 当 扩展 一 个 文件 时 ， 在 相应 的 目录 项 中 其 文件 大 小 必须 增加 。 文 件 Pute. 包含 以 下 代码 。 

/* lflPutc.c - lfPutc */ 


#include «xinu.h» 


本 
* lflPutc - write a single byte to an open local file 
cricca 
*/ 

devcall lflPutc ( 

struct dentry *devptr, /* entry in device switch table */ 
char ch /* character (byte) to write + 
) 
{ 
struct lflcblk *lfptr; /* ptr to open file table entry */ 
struct ldentry *ldptr; /* ptr to file’s entry in the wy 
/* in-memory directory *p 


/* Obtain exclusive use of the file */ 


lfptr = &lfltab[devptr-»dvminor]; 
wait (lfptr->1fmutex) ; 


/* If file is not open, returm an error */ 


if (lfptr->lfstate != LF_USED) { 
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signal (lfptr->lfmutex) ; 
return SYSERR; 
} 


/* Return SYSERR for an attempt to skip bytes beyond the */ 
A current end of the file #7 


ldptr = lfptr->lfdirptr; 

if (lfptr->lfpos > ldptr-»1d size) { 
signal (1fptr->1fmutex) ; 
return SYSERR; 

} 


/* If pointer is outside current block, set up new block */ 
if (lfptr->lfbyte >= &lfptr->lfdblock[LF_BLKSIZ]) ( 


/* Set up block for current file position */ 
lfsetup(lfptr); 
} 


/* If appending a byte to the file, increment the file size. xJ 
/* Note: comparison might be equal, but should not be greater. */ 


if (lfptr->lfpos >= ldptr-»1d size) { 
laptr->ld_size++; 
} 


/* Place byte in buffer and mark buffer "dirty" */ 


*lfptr->lfbyte++ = ch; 
lfptr->lfpos++; 
lfptr->lfdbdirty = TRUE; 


signal (lfptr->1fmutex) ; 
return OK; 
} 


19.20 载 入 索引 块 和 数据 块 (Ifsetup) 

一 旦 将 一 个 文件 位 置 分 配给 字段 lfpos， 函 数 Ifsetup 就 从 磁盘 中 载 人 与 这 个 位 置 相关 的 索引 块 和 数 
据 块 的 副本 。lfsetup 从 获得 指向 数据 结构 的 指针 开始 。 如 果 现 有 的 索引 块 或 数据 块 已 经 改变 ，lfsetup 
就 调用 Mush 把 它们 写 回 磁盘 ， 然 后 检查 文件 控制 块 中 的 索引 块 。 

载 人 当前 文件 位 置 数据 的 第 一 步 是 载 人 一 个 索引 块 ， 这 个 索引 块 在 当前 位 置 之 前 或 者 恰好 与 当前 
位 置 一 致 。 这 里 有 两 种 情况 。 如 果 没 有 索引 块 被 载 入 〈 即 文件 刚刚 被 打开 ) ，lfsetup 就 获取 一 个 索引 
块 。 对 于 一 个 新 文件 ，lfsetup 必须 从 空闲 列表 中 分 配 一 个 初始 索引 块 ; 对 于 一 个 已 经 存在 的 文件 ， 它 
载 人 这 个 文件 的 第 一 个 索引 块 。 如 果 索 引 块 已 经 被 载 人 ，lfsetup 就 必须 处 理 下 面 这 种 情况 : 索引 块 对 
应 于 文件 中 在 当前 文件 位 置 之 后 的 一 部 分 (例如 ， 进 程 已 经 给 更 早 的 位 置 发 出 了 seek) 。 为 此 ，lfsetup 
用 文件 最 初 的 索引 块 来 替换 这 个 索引 块 。 

— H lfsetup 载 人 了 索引 块 ， 它 就 会 进入 一 个 循环 ， 沿 着 索引 块 的 链表 前 移 直 到 到 达 黎 盖 当 前 文件 
位 置 的 索引 块 。 每 次 迭代 中 ，lfsetup 使 用 ib. next 字段 找到 链表 下 一 个 索引 块 的 位 置 ， 然 后 调用 Mibget 
将 索引 块 读 到 内 存 中 。 

一 旦 正确 的 索引 块 被 载 和 人，lfsetup 必须 决定 需要 载 和 的 数据 块 。 为 了 确定 这 些 数据 块 ， 它 使 用 文 
件 位 置 来 计算 数据 块 数组 的 索引 (从 0 ~ 15), 。 因 为 每 一 个 索引 块 仅 柳 盖 SKB (BP 22 字 节 ) 的 数据 ， 
并 且 数 组 中 的 每 项 对 应 于 一 个 512 字 节 的 块 (2 ) ， 可 以 使 用 二 进 制 算术 来 进行 计算 : lfsetup 计算 LF_ 
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IMASK ( 低 13 位 ) 的 逻辑 与 ， 然 后 将 结果 向 右 移 9 位 。 


Ifsetup 使 用 上 述 计算 的 结果 作为 对 数组 ib_dba 的 索引 来 获得 数据 块 的 也。 此 时 会 有 两 种 情况 需要 
lfsetup 载 人 一 个 新 的 数据 块 。 第 一 种 情况 是 ， 数 组 中 的 指针 为 空 ， 意 味 着 卫 Pute 准备 在 文件 末尾 写 一 
个 新 的 字 节 ， 没 有 数据 块 被 分 配 到 这 个 位 置 。lfsetup 调用 lfdballoc 从 空闲 链表 中 分 配 一 个 新 的 数据 块 ， 
记录 数组 ib_dba 中 这 项 的 人 D。 第 二 种 情况 是 ， 数 组 ib_dba 中 的 项 指定 数据 块 ， 而 不 是 当前 被 载 人 的 数 


据 块 。lfsetup 调用 read 从 磁盘 中 获取 正确 的 数据 块 。 


作为 返回 前 的 最 后 一 步 ，lfsetup 使 用 文件 位 置 来 计算 数据 块 中 的 位 置 ， 并 且 分 配 这 个 地 址 给 lfbyte 
字段 。 数 据 块 的 大 小 为 2 的 震 ， 这 样 仔细 的 安排 意味 着 从 0 ~511 之 间 的 索引 可 以 通过 选择 文件 位 置 的 
低 9 位 来 计算 。 这 段 代 码 使 用 和 LF DMASK 的 逻辑 与 。 文 件 lfsetup.c 包含 这 段 代 码 。 


/* lfsetup.c - lfsetup */ 


#include «xinu.h» 


/* m O——— JM UO UPS UP le ig pe ane E P Mes lag Sin gl we we T EP mp pn E a Ir eee ae E EE EY 
* lfsetup - set a file's index block and data block for the current 
x file position (assumes file mutex held) 
| oec —————————————————————— ÁREA PEE 
*/ 
status lfsetup ( 
struct lflcblk *lfptr /* ptr to slave file device 
) 
( 
dbid32  dnum; /* data block to fetch 
ibid32  ibnum; /* i-block number during search 
struct ldentry *ldptr; /* ptr to file entry in dir. 
struct lfiblk *ibptr; /* ptr to in-memory index block 
uint32 newoffset; /* computed data offset for 
/* next index block 
int32 dindex; /* index into array in an index 
/* block 


/* Obtain exclusive access to the directory */ 


wait(Lf data.lf mutex); 


/* Get pointers to in-memory directory, file's entry in the 
/* directory, and the in-memory index block 
ldptr = lfptr->lfdirptr; 


Il 


ibptr &lfptr->lfiblock; 


/* If existing index block or data block changed, write to disk 
if (lfptr->lfibdirty || lfptr->lfdbdirty) { 


lfflush(lfptr); 
) 


ibnum = lfptr->lfinum; /* get ID of curr. index block 
/* If there is no index block in memory (e.g., because the file 
/* was just opened), either load the first index block of 
/* the file or allocate a new first index block 


if (ibnum == LF_INULL) { 


/* Check directory entry to see if index block exists 


ey 
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*/ 
*/ 
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*/ 
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ibnum = l@ptr->la_ilist; 
if (ibn == LF_INULL) { /* empty file - get new i-block*/ 
ibnum = lfiballoc(); 
lfibclear(ibptr, 0); 
ldptr-»1d ilist = ibnum; 
lfptr->lfibdirty = TRUE; 
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) else ( /* nonempty - read first i-block*/ 


lfibget(Lf data.lf dskdev, ibnum, ibptr); 


) 
lfptr->lfinum = ibnum; 


/* Otherwise, if current file position has been moved to an 
/* offset before the current index block, start at the 
/* beginning of the index list for the file 


) else if (lfptr->lfpos < ibptr-»ib offset) ( 


/* Load initial index block for the file (we know that 
/* at least one index block exists) 


ibnum = ldptr-»1d ilist; 
lfibget(Lf data.lf dskdev, ibnum, ibptr); 
lfptr->lfinum = ibnum; 


/* At this point, an index block is in memory, but may cover 
/* an offset less than the current file position. Loop until 
/* the index block covers the current file position. 


while ((lfptr->lfpos & ~LF_IMASK) > ibptr->ib_offset ) { 
ibnum = ibptr->ib_next; 
if (ibnum == LF_INULL) { 
/* allocate new index block to extend file */ 
ibnum = lfiballoc(); 
ibptr->ib_next = ibnum; 


xy 
i 
*/ 


*/ 
a} 


*/ 
“| 
*7 


lfibput(Lf data.lf dskdev, lfptr->lfinum, ibptr); 


lfptr->lfinum = ibnum; 
newoffset = ibptr-»ib offset + LF IDATA; 
lfibclear(ibptr, newoffset); 
lfptr->lfibdirty = TRUE; 
} else { 
lfibget (Lf data.lf dskdev, ibnum, ibptr); 
lfptr->lfinum = ibnum; 
) 
lfptr->lfdnum = LF DNULL; /* Invalidate old data block 
) 
/* At this point, the index block in lfiblock covers the 
/* current file position (i.e., position lfptr->lfpos). The 
/* next step consists of loading the correct data block. 


dindex = (lfptr->lfpos & LF IMASK) >> 9; 


/* If data block index does not match current data block, read 
pe the correct data block from disk 


dnum = lfptr->1lfiblock.ib_dba[dindex]; 
if (dnum == LF DNULL) ( /* allocate new data block */ 
dnum = lfdballoc((struct lfdbfree *)&lfptr-»1fdblock); 


ui 


wy 


my 
ty 


v 
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lfptr-»1lfiblock.ib dba[dindex] = dnum; 
lfptr->lfibdirty = TRUE; 
) else if ( dnum != lfptr-»lfdnum) { 
read(Lf data.lf dskdev, (char *)lfptr-»1fdblock, dnum); 
lfptr-»1fdbdirty - FALSE; 
) 
lfptr-»1fdnum = dnum; 


/* Use current file offset to set the pointer to the next byte */ 
/* within the data block */ 


lfptr->lfbyte = &lfptr->lfdblock[lfptr->lfpos & LF DMASK]; 
signal(Lf data.lf mutex); 
return OK; 

} 


19.21 主 文件 系统 设备 的 初始 化 (Ifsinit) 
主 文件 系统 设备 的 初始 化 很 明确 ， 由 函数 lfsInit 完成 。 有 具体 任务 包括 记录 磁盘 设备 的 ID 、 创 建 一 





MM 个 提供 目录 互 斥 的 信号 量 、 清 除 内 存 目 录 ( 仅 帮 助 调试 ) 和 设置 一 个 布尔 值 来 表明 目录 还 未 读 和 人 内 





N 





存 。 主 文件 系统 设备 的 数据 保存 在 全 局 结构 LE data 中 。 文 件 lfsInit.c 包含 以 下 代码 。 





/* lfsInit.c = lfsInit */ 
#include <xinu.h> 


struct lfdata Lf data; 


/* ———— ———————— —————————— Hl a GS 
* lfsInit -- initialize the local file system master device 

M reae ans tni citi du SeE uUi anE-SéR Qui a RR QS o Mal ums adi RI io GU is GS Qus Qus Gd Russ anna. 

#/ 
devcall lfsInit ( 

struct dentry *devptr /* entry in device switch table */ 
) 
{ # 


/* Assign ID of disk device that will be used */ 

Lf data.lf dskdev = LF DISK DEV; 

/* Create a mutual exclusion semaphore */ 

Lf data.lf mutex - semcreate(1); 

/* Zero directory area (for debugging) */ 

memset((char *)&Lf data.lf dir, NULLCH, sizeof(struct lfdir)); 
/* Initialize directory to "not present" in memory */ 

Lf data.lf dirpresent = Lf data.lf dirdirty = FALSE; 


return OK; 
} 


19.22 伪 设 备 的 初始 化 (Iflnit ) 

当 打 开 一 个 文件 时 ，lfsOpen 将 文件 伪 设 备 控制 块 里 的 许多 表 项 初始 化 。 然 而 ， 有 些 初 始 化 在 
系统 启动 的 时 候 就 已 经 实现 了 。 为 了 标记 设备 未 被 使 用 ， 需 要 将 状态 的 值 设置 为 LF_FREE。 为 了 
确保 在 一 段 给 定时 间 里 在 某 个 文件 上 最 多 只 能 有 一 个 操作 ， 需 要 创建 一 个 互 斥 信号 量 。 控 制 块 里 
的 其 他 字段 都 赋值 为 0 (这 些 字段 只 有 在 文件 打开 的 时 候 会 被 用 到 ， 而 初始 化 为 0 便于 调试 ) 。 文 
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ft IflInit.e 包含 了 相应 代码 。 


/本 


#include <xinu.h> 


struct lflcblk lfltab[Nlf1]; /* control blocks */ 
7% cocco re A ee me eA eo a € — a 9 — m a a € —À m — — me@e>@__m_m_@rmm@»@mm—@@@—@-——@Ém@—m——m_m@_—_——_—T@eesuem 
* lflInit - initialize control blocks for local file pseudo-devices 
Sf 
devcall lflInit ( 
struct dentry *devptr /* Entry in device switch table */ 
) 
{ 
struct lflcbik *lfptr; /* Ptr. to control block entry */ 
int 32 i; /* Walks through name array */ 


lfptr = &lfltab[ devptr-»dvminor ]; 
/* Initialize control block entry */ 


lfptr->lfstate = LF FREE; /* Device is currently unused ui 
lfptr-»1fdev = devptr->dvnum; /* Set device ID Ef 
lfptr->lfmutex = semcreate(1); 
lfptr->lfdirptr = (struct ldentry *) NULL; 
lfptr->lfpos = 0; 
for (i=0; i«LF NAME LEN; i++) { 

lfptr-»1fname[i] = NULLCH; 
} 
lfptr->lfinum = LF_INULL; 
memset ( (char *) &lfptr->lfiblock, NULLCH, sizeof(struct lfiblk)); 
lfptr->lfdnum = 0; 
memset ( (char *) &lfptr->lfdblock, NULLCH, LF BLKSIZ); 
lfptr->lfbyte = &lfptr->lfdblock[LF_BLKSIZ]; /* beyond lfdblock */ 
lfptr->lfibdirty = lfptr->lfdbdirty = FALSE; 
return OK; 


19.23 文件 截断 (Iftruncate) 

Xinu 用 文件 截断 的 方式 来 释放 文件 的 数据 结构 。 为 了 使 文件 长 度 缩减 为 零 ， 该 文件 的 所 有 索引 
块 都 必须 置 于 索引 块 空闲 链表 上 ， 而 这 些 索引 块 只 有 在 其 所 指向 的 所 有 数据 块 都 置 于 数据 块 空闲 链 
表 上 的 时 候 才 能 被 释放 。lftruncate 函数 实现 了 文件 截断 ， 文 件 Iftruncate.c 包含 了 相应 代码 。 


/* lftruncate.c ~ lftruncate */ 


#include <xinu.h> 


/* ———M——————————MÁ—————Ó— M——————Ó———————— € 
* lftruncate - truncate a file by freeing its index and data blocks 
» (assumes directory mutex held) 
OD 
*/ 

status lftruncate ( 


struct lflcblk *lfptr /* ptr to file's cntl blk entry */ 


struct  ldentry *ldptr; /* pointer to file's dir. entry */ 
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struct lfiblk iblock; /* buffer for one index block 
ibid32 ifree; /* start of index blk free list 
ibid32  firstib; /* first index blk of the file 
ibid32 nextib; /* walks down list of the 

{a file's index blocks 
dbid32  nextdb; /* next data block to free 
int32 i; /* moves through data blocks in 


g= a given index block 


ldptr = lfptr->lfdirptr; /* Get pointer to dir. entry 
if (ldptr-»1d size == 0) { /* file is already empty */ 
return 0K; 


/* Clean up the open local file first */ 
if ( (lfptr->lfibdirty) || (1fptr-»lfdbdirty) ) { 


lfflush(lfptr); 
} 
lfptr->lfpos = 0; 
lfptr->lfinum = LF_INULL; 
lfptr->lfdnum = LF DNULL; 
lfptr->lfbyte = &lfptr->lfdblock[LF_BLKSIZ]; 
/* Obtain ID of first index block on free list */ 


ifree = Lf data.lf dir.lfd ifree; 
/* Record file's first i-block and clear directory entry */ 


firstib = ldptr-»1d ilist; 
ldptr-»1d ilist = LF INULL; 
ldptr-»1d size = 0; 
Lf data.lf dirdirty = TRUE; 
/* Walk along index block list, disposing of each data block 
/* and clearing the corresponding pointer. A note on loop 
/* termination: last pointer is set to ifree below. 
for (nextib-firstib; nextib!-ifree; nextib-iblock.ib next) ( 
/* Obtain a copy of current index block from disk 
lfibget(Lf data.lf dskdev, nextib, &iblock); 
/* Free each data block in the index block 
for (i=0; i«LF IBLEN; i++) ( /* for each d-block 
/* Free the data block */ 
nextdb = iblock.ib_dbali]; 
if (nextdb != LF DNULL) ( 
lfdbfree(Lf data.lf dskdev, nextdb); 


/* Clear entry in i-block for this d-block 


iblock.ib dba[i] - LF DNULL; 


"d 
*/ 
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/* Clear offset (just to make debugging easier) 
iblock.ib_offset = 0; 


/* For the last index block on the list, make it point 
y^ to the current free list 


if (iblock.ib next -- LF INULL) ( 
iblock.ib next - ifree; 


) 


/* Write cleared i-block back to disk */ 
lfibput(Lf data.lf dskdev, nextib, &iblock); 
) 


/* Last index block on the file list now points to first node 
[* on the current free list. Once we make the free list 

I* point to the first index block on the file list, the 

{* entire set of index blocks will be on the free list 

Lf data.lf dir.lfd ifree = firstib; 

/* Indicate that directory has changed and return */ 


Lf _data.lf dirdirty = TRUE; 


return OK; 


) 


ef 


id 
*/ 


*/ 
ay 
=" 
xf 
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以 上 所 使 用 的 方法 很 简单 : 如 果 文 件 长 度 为 零 ， 则 直接 返回 给 调用 函数 ; 否则 遍历 文件 的 索引 块 
链表 ， 依 次 将 每 个 索引 块 读 人 和 人 内存， 调用 lfdbfree 释放 该 索引 块 所 指向 的 每 个 数据 块 。 
当 遍 历 到 最 后 一 个 索引 块 时 ， 将 文件 的 所 有 索引 块 加 入 到 空闲 链表 中 。 注 意 ， 由 于 文件 的 所 有 索 
引 块 都 已 经 链接 起 来 ， 要 完成 此 步 ， 只 需要 改变 两 个 指针 。 首 先 ， 把 文件 最 后 一 个 索引 块 的 next 指针 


指向 当前 的 空闲 链表 ; 其 次 ， 把 空闲 链表 指向 文件 的 第 一 个 索引 块 。 


19.24 初始 文件 系统 的 创建 (Ifscreate) 


最 后 一 个 初始 化 函数 将 使 整个 文件 系统 的 细节 加 以 完善 。 函 数 lfscreate 在 磁盘 上 创建 一 个 初始 的 
空 文件 系统 ， 即 生成 一 个 索引 块 的 空闲 链表 、 一 个 数据 块 的 空闲 链表 和 一 个 没有 文件 的 目录 。 文 件 正 


screate.c 包含 了 相应 代码 。 


/* lfscreate.c -  lfscreate */ 


#include <xinu.h> 
#include <ramdisk.h> 


ed 
* lfscreate -- Create an initially-empty file system on a disk 
tek binati dini 
*/ 
status lfscreate ( 
did32 disk, /* ID of an open disk device e/ 
ibid32 lfiblks, /* num. of index blocks on disk */ 
uint32 dsiz /* total size of disk in bytes */ 
; 
{ 
uint32 sectors; /* number of sectors to use $4 


uint32 ibsectors; /* number of sectors of i-blocks*/ 
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uint32  ibpersector; /* number of i-blocks per sector*/ 
struct lfdir dir; /* Buffer to hold the directory */ 
uint32 dblks; /* total free data blocks */ 
struct lfiblk iblock; /* space for one i-block ui 
struct lfdbfree dblock; /* data block on the free list */ 
dbid32 dbindex; /* index for data blocks #/ 
int32 retval; /* return value from func call */ 
int32 ii /* loop index =y 


/* Compute total sectors on disk */ 


sectors = dsiz / LF_BLKSIZ; /* truncate to full sector */ 


/* Compute number of sectors comprising i-blocks */ 


ibpersector = LF BLKSIZ / sizeof (struct lfiblk); 
ibsectors = (lfiblks+(ibpersector-1)) / ibpersector; /* round up*/ 
lfiblks = ibsectors * ibpersector; 
if (ibsectors > sectors/2) { /* invalid arguments */ 
return SYSERR; 


/* Create an initial directory */ 


memset ( (char *)&dir, NULLCH, sizeof(struct lfdir)); 
dir.1fd nfiles = 0; 
dbindex= (dbid32) (ibsectors + 1); 
dir.lfd dfree = dbindex; 
dblks = sectors - ibsectors - 1; 
retval = write(disk, (char *)&dir, LF_AREA DIR); 
if (retval == SYSERR) { 
return SYSERR; 


/* Create list of free i-blocks on disk */ 


lfibclear(&iblock, 0); 

for (i20; i<lfiblks-1; i++) { 
iblock.ib next = (ibid32)(i + 1); 
lfibput(disk, i, &iblock); 

) 

iblock.ib next - LF INULL; 

lfibput(disk, i, &iblock); 


/* Create list of free data blocks on disk */ 


memset((char*)&dblock, NULLCH, LF BLKSIZ); 

for (i20; i«dblks-1; i++) { 
dblock.lf nextdb = dbindex + 1; 
write(disk, (char *)&dblock, dbindex); 
dbindex++; 

} 

dblock.lf nextdb = LF DNULL; 

write(disk, (char *)&dblock, dbindex); 

close(disk); 

return OK; 


第 19 章 文件 系统 + 269 


19.25 MA 

文件 系统 是 操作 系统 中 最 复杂 的 部 分 之 一 。 实 现时 面临 的 一 个 问题 是 文件 共享 。 本 章 的 实现 通过 
添加 一 个 约束 来 规避 这 个 问题 ， 即 规定 在 给 定时 间 内 一 个 文件 只 允许 被 打开 一 次 。 一 旦 我 们 放宽 这 个 
约束 ,文件 系统 就 必须 处 理 多 个 指向 同一 个 文件 的 文件 描述 符 。 文 件 共 享 会 带 来 很 多 语义 问题 ， 怎样 
解释 覆盖 写 操作 y” 当 一 个 进程 尝试 对 一 个 文件 的 0 ~ N 字 节 进行 写 操作 时 ， 男 一 个 进程 同时 尝试 写 人 同 
一 个 文件 的 2~N-1 字 节 ， 此 时 应 该 怎么 做 ? 文件 系统 如 何 保证 两 个 操作 中 的 某 一 个 一 定 是 先 执行 的 ? 
文件 系统 是 否 应 该 允许 字 节 混合 编 址 ? 文件 系统 如 何 管理 共享 缓存 以 使 操作 更 高 效 ? 

第 二 个 复杂 的 方面 来 自 其 实现 。 所 有 对 文件 的 操作 必须 转换 为 对 磁盘 块 的 操作 ， 因 此 诸如 链表 之 
类 的 基本 数据 结构 都 难以 处 理 。 有 趣 的 是 ， 许 多 复杂 性 都 源 于 磁盘 块 的 共享 。 例 如 ， 由 于 一 个 磁盘 块 
里 可 以 存放 多 个 文件 的 索引 块 ， 两 个 进程 有 可 能 同时 访问 同一 个 磁盘 块 。 大 部 分 的 文件 系统 都 设置 了 
缓存 磁盘 块 ， 从 而 使 这 种 访问 更 加 高 效 。 

第 三 个 复杂 的 方面 来 自 于 对 数据 安全 和 恢复 的 需要 。 用 户 认为 一 旦 数据 被 写 入 文件 ， 即 使 断 电 ， 
这 个 数据 仍然 是 “安全 ”的 。 然 而 ,文件 系统 并 不 能 在 每 次 应 用 程序 向 文件 中 写 入 字 节 的 时 候 都 对 磁 
盘 进 行 写 操作 。 因 此 ， 设 计 文件 系统 的 一 个 大 问题 就 是 保持 效率 与 数据 安全 性 的 平衡 一 一 设计 者 总 是 
设法 把 数据 丢失 的 危险 降低 到 最 小 ， 同 时 设法 把 文件 系统 的 效率 提升 到 最 大 。 


19.26 总 结 

文件 系统 是 在 非 易 失 性 存储 上 进行 操作 的 。 为 了 保证 文件 接口 与 设备 接口 的 一 致 性 ， 本 书 把 示例 系 
统 组 织 为 一 个 主 文件 系统 设备 和 一 系列 的 文件 伪 设备 。 为 了 访问 文件 ， 进 程 打开 主 设备 。 程 序 调用 返回 
文件 的 一 个 伪 设 备 描 述 符 。 文 件 打开 后 ， 就 可 以 对 它 进 行 read、write、getec、putc 、seek 和 close 操作 了 。 

本 书 的 设计 允许 文件 动态 增长 。 文 件 的 数据 结构 包含 了 目录 表 项 和 一 个 索引 块 的 链表 ， 其 中 每 个 
索引 块 都 指向 一 系列 的 数据 块 。 当 使 用 文件 时 ， 驱 动 软件 将 索引 块 和 数据 块 读 和 人 内存。 对 文件 的 后 续 
访问 和 读 、 写 作用 于 内 存 中 的 数据 块 。 而 当 文件 的 位 置 超出 当前 数据 块 时 ， 文 件 系 统 把 该 块 写 回 磁盘 
并 给 内 存 分 配 男 一 个 数据 块 。 类 似 地 ， 当 一 个 文件 的 位 置 超出 当前 索引 块 所 能 覆盖 的 位 置 时 ， 系 统 把 
当前 索引 块 写 回 磁盘 并 给 内 存 分 配 一 个 新 的 索引 块 。 


练习 

19.1 重新 设计 JRead 和 阴 Write 程序 ， 使 其 能 进行 高 速 复制 〈 即 在 向 当前 数据 块 或 者 从 当前 数据 块 复制 
数据 时 ， 不 必 重 复 调 用 ICete 或 者 llPutc)。 重 新 设计 系统 ， 使 其 允许 多 个 进程 同时 打开 同一 个 文 
件 。 处 理 所 有 的 写 操作 以 保证 文件 中 的 一 个 给 定 字 节 总 能 包含 最 后 一 次 写 操 作 。 

19.2 空闲 数据 块 是 用 一 个 单 链表 连接 起 来 的 。 重 新 设计 系统 ， 将 它们 放 在 一 个 文件 中 〈( 即 把 0 索引 块 存 
储 为 一 个 未 命名 文件 ， 文 件 中 的 索引 块 都 指向 空闲 数据 块 ) 。 对 比 该 设计 与 原 设 计 的 性 能 。 

19.3 在 题 19.2 中 ， 原 设计 与 新 设计 分 配 和 释放 一 个 数据 块 所 需要 的 最 大 磁盘 访问 次 数 分 别 是 多 少 ? 

19.4 索引 块 的 数目 非常 重要 ， 因 为 如 果 使 用 太 多 的 索引 块 ， 就 会 浪费 本 来 可 以 分 配给 数据 块 的 空间 ; 而 
如 果 使 用 太 少 的 索引 块 ， 那么 由 于 索引 块 的 不 足 会 导致 数据 块 的 浪费 。 假 设 一 个 索引 块 中 能 存放 16 
个 数据 块 指针 ， 一 个 磁盘 块 中 能 存放 7 个 索引 块 ， 那么 在 一 个 有 个 磁盘 块 的 磁盘 中 ， 如 果 目 录 中 
可 以 放大 个 文件 ， 那 么 磁盘 需要 有 多 少 个 索引 块 ? 

19.5 当前 索引 块 D 是 32 位 长 。 重 新 设计 系统 ， 让 其 使 用 16 位 的 索引 块 D。 两 者 的 优 、 劣 分 别 是 什么 ? 

19.6 重新 设计 系统 ， 使 得 当 一 个 进程 结束 时 ， 该 进程 打开 的 所 有 文件 都 能 被 关闭 。 

19.7 改变 系统 ， 使 文件 转换 表 从 设备 转换 表 中 分 离 出 来 。 这 两 种 方法 的 优 、 劣 分 别 是 什么 ? 

19.8 当 改 变 空闲 链表 后 ， 函 数 Miballoe 会 向 磁盘 中 写 人 目录 的 一 个 副本 。 对 于 该 操作 ，lfiballoc 也 可 以 选 
择 把 目录 标记 为 “ 脏 ”( dirty) 从 而 推迟 写 操 作 。 讨 论 这 两 种 方法 的 优 、 劣 。 

19.9 考虑 两 个 尝试 向 同一 个 文件 进行 写 操作 的 进程 。 假 设 其 中 一 个 重复 地 写 20 个 字 节 的 字符 A， 而 另 一 
个 则 重复 地 写 20 个 字 节 的 字符 B。 描 述 该 文件 中 字符 出 现 的 顺序 。 

19.10 ”为 文件 伪 设 备 的 驱动 创建 一 个 control 函数 ， 从 而 允许 一 个 调用 程序 调用 lftruncate。 

19. 11 为 主 文件 系统 创建 一 个 control 函数 ， 从 而 允许 一 个 调用 程序 调用 lfscreate。 
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远程 文件 机 制 


PRA JE XE FER, 





20.1 引言 

第 16 章 讨 论 了 使 用 硬件 接口 来 发 送 和 接收 数据 包 的 网 络 接口 和 设备 驱动 器 。 第 18 章 解 释 了 磁盘 
硬件 和 块 传输 范式 。 第 19 章 解 释 了 文件 系统 如 何 建立 包括 动态 文件 在 内 的 高 层 抽象 ， 并 说 明文 件 如 何 
映射 到 磁盘 。 

本 章 通过 解释 另 一 种 选择 一 一 使 用 远程 文件 服务 器 (remote file server) ， 来 进一步 讨论 文件 系统 。 
操作 系统 利用 称 为 服务 器 (server) 的 独立 计算 机 来 实现 文件 抽象 ， 而 不 是 本 地 硬件 上 。 当 应 用 程序 请 
求 文件 操作 时 ， 操 作 系 统 就 会 向 服务 器 发 送 请 求 (request) 并 接收 响应 (response) 。 第 21 章 则 通过 说 
明 如 何 整合 远程 和 本 地 文件 系统 来 进一步 讨论 这 个 话题 。 


20.2 远程 文件 访问 

远程 文件 访问 (remote file access) 机 制 有 四 个 概念 性 的 组 成 部 分 。 第 一 ， 操 作 系统 必须 包含 网 络 
设备 的 设备 驱动 (比如 ， 以 太 网 ) 。 第 二 ， 操 作 系 统 必须 包含 协议 软件 〈 比 如 ，UDP AIP) 来 处 理 寻 
Hb (addressing) ， 这 样 数据 包 才能 到 达 远 程 服务 器 ， 应 答 才 能 返回 。 第 三 ， 操 作 系 统 必 须 有 远程 文件 
访问 软件 做 为 客户 端 (客户 端的 功能 是 生成 请 求 ， 通 过 网 络 发 送 请 求 到 服务 器 并 接收 响应 ， 然 后 解释 
响应 ) 。 当 进程 调用 远程 文件 的 输入 输出 操作 ( 比如 ， 读 或 写 ) 时 ， 远 程 文件 访问 软件 就 会 生成 一 条 
消息 来 详细 说 明 这 个 操作 ， 发 送 请 求 到 远程 文件 服务 器 ， 并 处 理 响 应 。 第 四 ， 网 络 上 的 计算 机 必须 运 
行 能 够 响应 每 一 个 请 求 的 远程 文件 服务 器 应 用 程序 。 

实际 上 ， 关 于 远程 文件 访问 机 制 的 设计 会 磁 到 很 多 问题 。 远 程 文件 服务 器 应 该 提供 哪些 服务 ? 服 
务 器 应 该 允许 客户 端 创建 分 层 目录 (hierarchical directory) ， 还 是 应 该 只 允许 客户 端 创建 数据 文件 〈da- 
ta file)? 这 个 机 制 应 该 允许 客户 端 删除 文件 吗 ? 如 果 两 个 或 者 两 个 以 上 客户 端 向 某 一 个 指定 的 服务 器 
发 送 请 求 ， 文 件 应 该 共享 还 是 每 个 客户 端 拥 有 一 份 自己 的 文件 ? 文件 应 该 缓存 在 客户 端 机 器 的 内 存 里 
吗 ? 例如 ， 当 进程 从 远程 文件 读 取 1 字 节 时 ， 客 户 端 软 件 是 否 应 该 请 求 1000 字 节 ， 并 把 剩余 的 字 节 保 
存在 缓存 中 ， 以 避免 再 次 发 送 请 求 到 远程 服务 器 来 获取 后 续 的 字 节 呢 ? 


20.3 ”远程 文件 语义 


远程 文件 系统 的 主要 设计 考虑 是 异 构 性 (heterogeneity): 客户 端 和 服务 端 机 器 上 的 操作 系统 可 能 
不 同 。 因 此 ， 远 程 服 务 器 上 的 有 效 文件 操作 可 能 与 客户 端 机 器 上 使 用 的 文件 操作 不 同 。 比 如 ， 因 为 远 
程 文件 服务 器 使 用 的 Xinu 运行 在 UNIX 系统 上 (例如 Linux 或 者 Solaris) ， 所 以 服务 器 提供 的 便 是 来 自 
UNIX 文件 系统 的 功能 。 

大 部 分 Xinu 文件 操作 可 以 直接 映射 到 UNIX 文件 操作 上 。 例 如 ，Xinu 和 UNIX 在 读 (read) 操作 
上 使 用 相同 的 语义 一 一 读 请 求 指定 缓冲 区 大 小 ， 读 操作 指出 放 进 缓冲 区 的 数据 字 节 数 。 类 似 地 ，Xinu 
5 (write) 操作 也 与 UNIX 写 操 作 有 相同 的 语义 。 

然而 ，Xinu 语义 在 很 多 地 方 与 UNIX 语义 是 有 区 别 的 。 每 一 个 UNIX 文件 都 有 一 个 由 UNIX 的 
userid 标 识 的 属 主 ， 而 Xinu 一 般 没 有 userid， 即 使 它 有 ， 也 不 会 与 服务 器 使 用 的 userid 一 致 。 两 者 甚至 
在 一 些小 的 细节 上 也 有 不 同 。 例 如 ，Xinu 的 打开 (open) 操作 中 使 用 的 模式 (mode) 参数 允许 调用 者 
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指明 文件 必须 是 新 的 〈 也 就 是 说 ， 必 须 不 存在 ) 或 者 是 旧 的 〈 也 就 是 说 ， 必 须 存 在 ) UNIX 允许 创建 
一 个 文件 ， 但 并 不 会 检测 这 个 文件 是 否 已 经 存在 。 与 Xinu 不 同 的 是 ， 如 果 这 个 文件 存在 ，UNIX 会 将 
这 个 文件 截断 为 0 字 节 。 所 以 ， 要 实现 Xinu 下 的 新 模式 ， 运 行 在 UNIX 系统 上 的 远程 服务 器 必须 先 检 
测 文件 是 否 存 在 ， 如 果 确 实 存 在 ， 则 返回 错误 标志 。 


20.4 远程 文件 设计 和 消息 


我 们 的 示例 远程 文件 系统 提供 了 如 下 的 基本 功能 : 一 个 Xinu 进程 能 够 创建 文件 、 向 文件 写 数据 、 
搜索 文件 中 的 任意 位 置 、 从 文件 中 读 取 数据 、 截 断 文 件 以 及 删除 文件 。 除 此 之 外 ， 远 程 文件 系统 允许 














Xinu 进程 创建 或 删除 目录 。 对 于 每 一 个 操作 ,系统 都 定义 一 个 请 求 消息 (从 Xinu 客户 端 发 送 到 远程 文 [460 
件 服务 器 ) 和 一 个 响应 消息 (从 服务 器 返回 到 Xinu 客户 端 ) 。 每 个 消息 都 包含 一 个 用 来 标明 操作 类 型 

的 通用 头 (common header) ， 一 个 状态 值 〈 用 于 报错 的 响应 ) 、 一 个 序列 号 (sequence number) ， 以 及 
文件 名 。 给 每 个 发 出 的 请 求 都 分 配 一 个 唯一 的 序列 号 ， 远 程 文件 软件 通过 检查 应 答 来 确保 进来 的 应 答 

与 发 出 的 请 求 相 匹配 。 我 们 的 实现 为 每 个 消息 类 型 定义 一 个 结构 〈structure) 。 为 了 避免 个 套 结构 声明 ， 
代码 使 用 一 个 预 处 理 器 定义 ，RF_MSG_HDR,， 来 表示 消息 头 字段 ， 然 后 把 消息 头 包 含 在 每 一 个 结构 体 

中 。 XF rfilesys.h 包含 如 下 代码 。 


/* rfilesys.h - definitions for remote file system pseudo-devices */ 
#ifndef Nrfl 

#define Nrfl 10 

#endif 


/* Control block for a remote file pseudo-device */ 


#define RF_NAMLEN 128 /* Maximum length of file name */ 
#define RF_DATALEN 1024 /* Maximum data in read or write*/ 
#define RF_MODE_R F_MODE_R /* Bit to grant read access bi 
#define RF_MODE_W F_MODE_W /* Bit to grant write access ey 
#define RF_MODE_RW F_MODE_RW /* Mask for read and write bits */ 
#define RF_MODE_N F_MODE_N /* Bit for "new" mode *4 
#define RF MODE O F MODE O /* Bit for "old" mode wf 
#define RF_MODE_NO F_MODE_NO /* Mask for "n" and "o" bits */ 


/* Global data for the remote server */ 


#ifndef RF_SERVER_IP 
#define RF_SERVER_IP "255,255 255. 255" 
#endi f 


#ifndef RF SERVER PORT 
#define RF SERVER PORT 33123 
#endif 


#ifndef RF LOC PORT 
#define RF LOC PORT 33123 
#endi f 


struct rfdata { 


int32 rf seq; /* next sequence number to use */ 
uint32 rf ser ip; /* server IP address a7 
uint16 rf_ser_port; /* server UDP port ii d 
uint16 rf loc port; /* local (client) UPD port *:/. 
sid32 rf mutex; /* mutual exclusion for access */ 


bool8 rf registered; /* has UDP port been registered?*/ 
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extern struct rfdata Rf data; 


/* Definition of the control block for a remote file pseudo-device 


#define RF FREE 0 
#define RF USED 1 


struct rflcblk ( 
int32 rfstate; 
int32 rfdev; 


char rfname[RF NAMLEN]; 


uint32 rfpos; 
uint32 rfmode; 


extern struct rflcblk 


rfltab[]; 


/* Entry is currently unused 
. /* Entry is currently in use 


/* entry is free or used 

/* device number of this dev. 
/* Name of the file 

/* current file position 

/* mode: read access, write 
u* access or both 


/* remote file control blocks 


/* Definitions of parameters used when accessing a remote server 


#define RF_RETRIES 
#define RF_TIMEOUT 


3 
1000 


/* time to retry sending a msg 


/* wait one second for a reply 


/* Control functions for a remote file pseudo device */ 


#define RFS_CTL_DEL 

#define RFS_CTL_TRUNC 
#define RFS_CTL_MKDIR 
#define RFS_CTL_RMDIR 
#define RFS_CTL_SIZE 


F CTI, DEL 
F. CTL, TRUNC 
F_CTL MKDIR 
F. CTL, RMDIR 
F. CTI, SIZE 


/* Delete a file 

/* Truncate a file 

/* make a directory 

/* remove a directory 

/* Obtain the size of a file 


*/ 


Lod 
PA 


*/ 
v 
*/ 
*y 
wy 
wf 


i 


*/ 


*/ 
By 


ki d 
E 
* 
p 
ia 


4% e ee ee e Fe eee e e de hehe hehehe eee e e e de e Fe e he e he ee e e e Fe Fe de he hehe de he he ee ek ehe ALÌ 


/* 


/* Definition of messages exchanged with the remote server 


/* 


ii 
*/ 
wy 


[ISAIA RR RK HRI RK IK IK HI HTK Fe He e e Fe RIA III RIA III AIR RIA Ae He e e KK Fe He e RAI] 


/* Values for the type field in messages */ 


#define RF_MSG_RESPONSE 


#define RF_MSG_ RREQ 
#define RF_MSG_RRES 


#define RF_MSG_WREQ 
#define RF_MSG_WRES 


#define RF MSG OREQ 
#define RF MSG ORES 


#define RF MSG DREQ 
#define RF. MSG DRES 


#define RF MSG TREQ 
#define RF MSG TRES 


#define RF MSG SREQ 
#define RF MSG SRES 


#define RF MSG ] 


0x0100 


0x0001 
(RF MSG RREQ 


0x0002 
(RF. MSG. WREQ 


0x0003 
(RF. MSG. OREQ 


0x0004 
(RF. MSG, DREQ 


0x0005 
(RF. MSG TREQ 


0x0006 
(RF MSG SREQ 


0x0007 


/* Bit that indicates response 


/* Read Request and response 
| RF. MSG, RESPONSE) 


/* Write Request and response 
| RF. MSG. RESPONSE) 


/* Open request and response 
RF. MSG RESPONSE) 


/* Delete request and response 
RF MSG RESPONSE) 


/* Truncate request & response 
RF MSG RESPONSE) 


/* Size request and response 
RF MSG RESPONSE) 





/* Mkdir request and response 


*/ 


af 


=f 


ud 


Sy 


y 


f 


ud 
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#define RF_MSG_MRES (RF MSG MREQ | RF. MSG. RESPONSE) 
#define RF MSG XREQ 0x0008 /* Rmdir request and response EJ 
#define RF_MSG_XRES (RF_MSG_XREQ | RF_MSG_RESPONSE) 
#define RF_MIN_REQ RF_MSG_RREQ /* Minimum request type Ed 
#define RF_MAX_REQ RF MSG XREQ /* Maximum request type xj 


/* Message header fields present in each message */ 


#define RF MSG HDR /* Common message fields EX 
uint16 rf type; /* message type IX 
uintl6 rf status; /* 0 in req, status in response */\ 
uint32 rf seq; /* message sequence number EIN 
char rf name[RF NAMLEN]; /* null-terminated file name Sg 

/* The standard header present in all messages with no extra fields */ 


[> hkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkákkkkkkkkkkkkk/ 


/* Ef 
/* Header =y 
FE *4 


[RRR ke he he e III IO kk kc ok kk kk kk Kk Ke ke kk kk Ok KO e o ke ok kk ke ke e ke ke kc kk kk Re ke ke kk ee eje ke | 


#pragma pack(2) 
struct rf msg hdr ( /* header fields present in each*/ 
RF MSG HDR i* remote file system message */ 


#pragma pack () 


[BRR RRR KK I IK KK ke ke khe he ok ke kk khe he ke ke kk ke ke KK de e kk ke ke e kk ITOK KR KR TOI ke ke ke ke ee ke ke ke GJ 


p* x 
/* Read ia? 
/* xj 


4 F 2 e e hee dece dee ke dee e dee e ke e e ke de de e ehe e e je e ee e e ke e e ke ek ke Fe He e ecce e TIC ROR IOI e de koe ek e IK Bk e He f 


#pragma pack(2) 


struct rf msg rreq { /* remote file read request =A 
RF_MSG_HDR /* header fields bai 
uint32 rf_pos; /* position in file to read &/ 
uint32 rf len; /* number of bytes to read *j 
LE (between 1 and 1024) Sf 
Fy; 


#pragma pack () 


#pragma pack (2) 


struct rf_msg_rres { /* remote file read reply |i; 
RF MSG HDR /* header fields Ef 
uint32 rf pos; /* position in file d 
uint32 rf len; /* number of bytes that follow */ 
/* (0 for EOF) hy 
char rf data[RF DATALEN]; /* array containing data from Wy 
Via the file ay 
F; 


#pragma pack () 


f[ khoe ek ee eee dee IA AIA RAISI AIR kk A KEK ERE RIK RIO RICE oko RARI | 


/* vy 
JE Write */ 
i */ 


JR CIE C EES EEE EKERN EERERE EER KEREKEKRE REE ERE REE ER EAE ER ERE EER dee RO de e eee dedo fl 
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#pragma Pack(2) 


struct rf msg wreq ( /* remote file write request wy 
RF_MSG_HDR /* header fields bi À 

uint32 rf pos; /* position in file a 

uint32 rf len; /* number of valid bytes in */ 

/* | array that follows */ 

char rf_data[RF_DATALEN] ; /* array containing data to be */ 

f* written to the file E 


#pragma pack() 


#pragma pack(2) 


struct rf msg wres { /* remote file write response */ 
RF MSG HDR /* header fields ud 
uint32 rf pos; /* original position in file ta” 
uint32 rf len; /* number of bytes written #/ 
}; 


#pragma pack() 


{ERI Fe He He he ERR KK RE RIA ERE RK HHH RRR KKK RRR IAA RIA IAA KKK AIA AIA AAA] 


{* */ 
p* Open ef 
/* */ 


A CC RK KR KEK hehe IKE KER ke e de he RK he ee ke KKK e He e He e RR KKK KKK ec ke e ke he IATA e eee ke e de e ek / 


#pragma pack(2) 


struct rf msg oreq { /* remote file open request ef 
RF_MSG_HDR /* header fields */ 
int32 rf_mode; /* Xinu mode bits */ 
}; 


#pragma pack(): 


#pragma pack (2) 


struct rf msg ores { /* remote file open response wy 
RF_MSG_HDR /* header fields Xy 
int32 rf_mode; /* Xinu mode bits */ 
Ji 


#pragma pack() 


JR ehe ke e e e e eee he ee e hee Fe ee hee e hehe e e ehe e je AAA e ke e Je Fe e e de hehehe e de e RAISI AIA AA IAA dede eee / 


/* *4 
pe Size */ 
/* A 


[CRI e e AIA KK Fe e ek e ke ke ke ke kk kk kk eee ke ek ke KI IK IK OK IK IK IK IO IR IK IK IK eee / 


*pragma pack(2) 

struct rf msg sreq { /* remote file size request *7 
RF MSG HDR /* header fields x 

F; 

#pragma pack() 


#pragma pack(2) 


struct rf msg sres { /* remote file status response */ 
RF_MSG_HDR i /* header fields */ 
uint32 rf size; /* size of file in bytes * 


}; 
#pragma pack() 
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J[ ACE ke eek e ee eee DE DEE ee e ee He ke ecce e e jede ede e e eee dece e ed EKER IH e He e de e de e dee / 


ps a 
f* Delete my 
/* wr 


[BIRR ek eek ee ek ee ke eee e kk ee khe he kk ek e e e kk Re kk e ok I ek deck de oe oko ek eee IK ke i 


#pragma pack(2) 
struct rf msg dreq { /* remote file delete request *y 


RF_MSG_HDR /* header fields *y 
ME 
#pragma pack() 


#pragma pack(2) 
struct rf msg dres { /* remote file delete response */ 


RF_MSG_HDR /* header fields ay 
s 
#pragma pack() 


[KC e e e OR ke RO II ke kk e e ke e ek he kk ke kk e e Ae kk ke ke ke ke e ke e ek kc ke kk e ke e ke ek e ke ke ke koe ek eee / 


f* */ 
[* Truncate &/ 
JR */ 


[RH RRR IRR RH AIA de ek RRR RR RK dede dee dee de ERK EERIE IK IK ERE RE KKK e He e e eie Y 


#pragma pack (2) 

struct rf_msg_treq { /* remote file truncate request */ 
RF MSG HDR /* header fields wj 

ir 

#pragma pack() 


#pragma pack(2) 

struct rf msg tres ( /* remote file truncate response*/ 
RF MSG HDR /* header fields bard 

2; 

#pragma pack() 


[COCCI III kk He He He He ko e he He He She dede do kk ek e e Ae OCICS ICICI IOI Kock kk kk kk TOR I II II IK ek 了/ 


/* */ 
A Mkdir */ 
ya */ 


[POI AAA AIA AA IA AAA AAA AAACASA e e kk k e He He e e e IOI ITO III I OR e e ek I RIK AK IKK Y 


#pragma pack (2) 

struct rf_msg_mreq { /* remote file mkdir request 2*4 
RF MSG HDR /* header fields #/ 

s 

#pragma pack() 


#pragma pack(2) 

struct rf msg mres { /* remote file mkdir response *f 
RF_MSG_HDR /* header fields at 

Di 

#pragma pack() 


LEA AA TIRA IRR RITA TO ICR AIR VR IR KERKEE IR RIA RARI TORII RIAA AIK | 


fe */ 
/* Rmdir */ 
pe */ 


[IORI ICR TOO E Fe HEE HE E FE E FE He DAE AE FEE AE ETTI LITI LITI LIT III NI 
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#pragma Pack(2) 
struct rf msg xreq ( /* remote file rmdir request */ 


RF MSG, HDR /* header fields «if 
un pack() 
#pragma pack(2) 
struct rf msg xres { /* remote file rmdir response *J 
RF MSG HDR /* header fields Rif 
ia pack() 

在 文件 中 ， 以 RF_MSG_ 开 头 的 常量 为 每 条 消息 定义 了 一 个 唯一 的 类 型 值 。 例 如 ，RF_MSG_RREQ 
定义 了 用 于 读 请 求 消息 的 类 型 值 ，RF_MSG_RRES 定义 了 用 于 读 响 应 消息 的 类 型 值 。 我 们 在 实现 中 使 
用 了 一 个 小 窍门 来 改善 效率 : 响应 消息 的 类 型 值 是 由 请 求 消息 的 类 型 值 和 常量 RF_MSG_RESPONSE 
( 值 被 定义 为 0x0100) 进行 逻辑 或 操作 生成 。 也 就 是 说 ， 除 了 第 二 个 字 节 的 低位 设置 成 1 外 ， 响 应 和 
请 求 有 相同 的 类 型 值 。 

消息 的 大 小 取决 于 类 型 。 许 多 消息 只 需要 通用 消息 头 中 的 字段 。 例 如 ， 文 件 删除 请 求 只 需要 一 个 
类 型 (指出 这 是 一 个 删除 请 求 ) 、 一 个 文件 名 ， 以 及 一 个 序列 号 。 因 此 ， 定 义 删 除 请 求 的 结构 体 rf_ 
msg dreq 只 包含 消息 头 字段 。 然 而 ， 一 个 写 请 求 消息 必须 包含 文件 偏 移 量 、 请 求 中 的 数据 字 节 数 ， 以 
及 将 要 写 人 的 数据 。 因 此 ， 定 义 写 请 求 的 消息 的 结构 体 rf msg wreg BRS MAHA RK, AWS 
的 三 个 字段 。 


20.5 远程 文件 服务 器 通信 


本 章 设计 的 远程 文件 系统 软件 分 为 两 层 。 低 层 功 能 负责 与 远程 服务 咒 通 信 一 一 发 送 消息 、 等 待 响 
应 和 在 某 些 情况 下 的 重新 发 送 。 高 层 功 能 负责 处 理 消息 语义 一 一 生成 消息 、 向 低层 传递 消息 、 接 收 响 
应 和 解析 响应 。 这 里 的 关键 思想 是 : 低层 只 处 理 消息 的 传输 和 接收 ， 不 需要 理解 或 解析 消息 的 内 容 。 
因此 只 需要 一 个 单独 的 函数 就 提供 了 所 有 的 低层 功能 。 

以 下 代码 清晰 地 阐述 了 这 个 思想 。rfkscomm 函数 负责 向 远程 文件 服务 器 发 送 消息 并 接收 响应 。 文 件 
rfscomm.c 包含 以 下 的 代码 。 f 


/* rfscomm.c - rfscomm */ 


#include <xinu.h> 


/* A e cacciata siano cacca 
* rfscomm - handle communication with RFS server (send request and 
* receive a reply, including sequencing and retries) 
|| m ——————————————————————————————————————————— 
Rf 
int32 rfscomm ( 
struct rf_msg_hdr *msg, /* message to send 74 
int32 mlen, /* message length ad 
struct rf msg hdr *reply, /* buffer for reply Lr d 
int32 rlen /* size of reply buffer x 
) 
( 
int32 Zr /* counts retries wf 
int32 retval; /* return value */ 
int32 seq; /* sequence for this exchange wy 
int16 rtype; /* reply type in host byte order*/ 


/* For the first time after reboot, register the server port */ 


if ( ! Rf data.rf registered ) ( 
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retval = udp_register(0, Rf_data.rf_ser_port, 
Rf_data.rf_loc_port); 
Rf_data.rf_registered = TRUE; 
} 
/* Assign message next sequence number */ 
seq = Rf_data.rf_seg++; 
msg-»rf seq = htonl (seq); 
/* Repeat RF_RETRIES times: send message and receive reply */ 
for (i=0; i<RF_RETRIES; i++) { 
/* Send a copy of the message */ 
retval = udp_send(Rf_data.rf_ser_ip, Rf_data.rf_ser_port, 
NetData.ipaddr, Rf_data.rf_loc_port, (char *)msg, 
mlen) ; 
if (retval == SYSERR) { 
kprintf("Cannot send to remote file server\n\r"); 
return SYSERR; 
} 
/* Receive a reply */ 
retval = uđp_recv(0, Rf_data.rf_ser_port, 
Rf_data.rf_loc_port, (char *)reply, rlen, 
RF_TIMEOUT) ; 
if (retval == TIMEOUT) { 
continue; 
} else if (retval == SYSERR) { 
kprintf ("Error reading remote file reply\n\r"); 
return SYSERR; 
} 
/* Verify that sequence in reply matches request */ 
if (ntohl(reply->rf_seg) != seq) { 
continue; 
} 
/* Verify the type in the reply matches the request */ 
rtype = ntohs(reply->rf_type); 
if (rtype != ( ntohs(msg-»rf type) | RF MSG RESPONSE) ) { 
continue; 
) 
return retval; /* return length to caller */ 


/* Retries exhausted without success */ 


kprintf ("Timeout on exchange with remote file server in Wr"); 
return TIMEOUT; 
) 


函数 的 4 个 参数 分 别 指定 了 应 该 发 送 到 服务 器 的 消息 的 地 址 、 消 息 的 长 度 、 服 务 器 响应 消息 的 组 
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冲 区 地 址 、 缓 冲 区 的 长 度 。 当 给 要 发 送 的 消息 设 定 了 一 个 单独 的 序列 号 之 后 ，rfscomm 函数 进入 到 一 个 
和 迭代 RF_RETRIES 次 的 循环 中 。 每 次 迭代 时 ，rfscomm 都 会 尝试 调用 udp_send 通过 网 络 发 送 一 份 请 求 
消息 的 副本 ”， 并 且 调用 udp_recv 接收 响应 ， 直 至 成 功 。 

udp_reev 允许 调用 者 定义 等 待 响应 的 最 长 时 间 ， 即 rfscomm 指定 的 RF. TIMEOUT^, 。 如 果 在 指定 时 
间 内 没有 消息 到 达 ， 则 udp_recv 返回 TIMEOUT， 然 后 通过 发 送 请 求 的 另 一 个 副本 循环 继续 。 如 果 RF 
RETRIES 次 尝试 都 没有 响应 到 达 ， 则 rfscomm 返回 TIMEOUT 给 调用 者 。 

如 果 响 应 消息 在 指定 时 间 内 到 达 了 ，rfscomm 验证 它 的 序列 号 、 消 息 类 型 与 已 发 送 的 请 求 消 息 的 序 
列 号 、 消 息 类 型 是 否 匹 配 。 如 果 任 一 验证 失败 ， 说 明 服务 器 生成 了 错误 的 消息 或 者 这 个 消息 被 发 送 给 
了 错误 的 客户 端 。 不 管 是 哪 种 情况 rfscomm 都 会 继续 循环 ， 发 送 请 求 消息 的 另 一 份 副本 并 等 待 响应 消 
息 的 到 达 。 如 果 两 个 验证 都 成 功 了 ， 说 明 到 达 的 消息 是 合法 的 响应 ， 然 后 rfscomm 返回 响应 消息 的 长 

给 调用 者 。 


20.6 发 送 一 个 基本 消息 


为 了 理解 rfscomm 如 何 工 作 ， 可 以 想象 一 个 只 需要 通用 头 内 各 个 字段 的 消息 ， 比 如 ，truncate 操作 
的 请 求 、 响 应 消息 。 因 为 有 很 多 类 型 的 消息 只 需要 通用 头 内 的 各 个 字段 ， 所 以 rfsndmsg 函数 被 用 来 专 
门 发 送 这 样 的 消息 。 文 件 risndmsg.c 包含 以 下 的 代码 。 


/* rfsndmsg.c - rfsndmsg */ 


#include «xinu.h» 


wp 

status  rfsndmsg ( 
uint16 type, /* message type #4 
char *name /* null-terminated file name */ 
) 

{ 
struct rf msg hdr reg; /* request message to send ud 
struct rf msg hár resp; /* buffer for response Cf 
int 32 retval; /* return value *4 
char *to; /* used during name copy */ 


/* Form a request */ 


req.rf type = htons(type); 
req.rf status = htons(0); 


req.rf seq - 0; /* rfscomm will set sequence y 
to - req.rf name; 


while ( (*to++ = *name++) ) { /* copy name to request */ 
} 
/* Send message and receive response */ 


retval = rfscomm(&req, sizeof(struct rf_msg_hdr), 
&resp, sizeof(struct rf_msg_hdr) ); 


/* Check response */ 





O 我 们 说 “发 送 一 份 请 求 消息 的 副本 ”是 因为 原 消息 不 会 被 修改 。 
© RF TIMEOUT 定义 成 1000 毫秒 〈 即 1 秒 ) ， 这 对 于 客户 端 与 服务 器 的 一 次 消息 往来 是 足够 的 。 
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if (retval == SYSERR) { 
return SYSERR; 
} else if (retval == TIMEOUT) { 
kprintf ("Timeout during remote file server access\n\r"); 
return SYSERR; 
) else if (ntohl(resp.rf status) !- 0) ( 
return SYSERR; 
} 


return OK; 
) 
rfsndmsg 函数 需要 两 个 参数 ， 一 个 用 来 指定 消息 的 类 型 ， 另 外 一 个 用 来 指定 文件 名 。 为 了 创建 一 
条 请 求 消息 ， 代 码 给 req 变量 的 每 个 字段 分 配 一 个 值 。 然 后 调用 rfscomm 发 送 消息 并 接收 响应 。 如 果 
rfscomm 返 回 错误 、 超 时 或 者 响应 的 状态 指出 一 个 错误 ，rfsndmsg 就 返回 SYSERR; 否则，rfsndmsg ik 
El OK, 


20.7 网 络 字 节 序 

远程 文件 访问 有 一 个 很 重要 的 问题 : 计算 机 中 整 型 数 的 格式 (比如 ， 字 节 序 ) 和 其 体系 结构 有 
关 。 如 果 我 们 把 一 台 计 算 机 内 存 中 的 整 型 数 直 接 复制 到 男 外 一 台 计 算 机 的 内 存 中 ,那么 这 个 整 型 数 的 
值 可 能 会 发 生变 化 。 为 了 避免 这 个 问题 ， 跨 计算 机 网 络 传 输 数 据 的 软件 都 要 遵从 一 个 规范 : 发 送 之 前 
要 把 整 型 数 从 本 地 字 节 序 (local byte order) 转换 成 标准 的 网 络 字 节 序 (network byte order) ， 接 收 之 后 
再 把 整 型 数 从 网 络 字 节 序 转换 回 本 地 字 节 序 。 

为 了 避免 不 同 的 字 节 序 对 数据 解释 的 不 同 ， 网 络 上 传输 的 整 型 数 必须 在 发 送 之 前 转换 成 

网 络 字 节 序 ， 并 且 在 接收 之 后 转换 为 本 地 字 节 序 。 在 我 们 的 设计 中 ， 顶层 函 数 负 责 这 个 转换 。 

Xinu 遵从 UNIX 命名 规范 来 命名 字 节 序 转换 函数 。htonl (htons) 把 一 个 整 型 ( 短 整 型 ) 数 从 本 地 
字 节 序 转换 成 网 络 字 节 序 ，ntohl (ntohs) 函数 把 一 个 整 型 ( 短 整 型 ) 数 从 网 络 字 节 序 转换 成 本 低 字 节 
序 。 比 如 ，rfsndmsg 函数 调用 htons 把 用 来 标识 消息 类 型 和 状态 的 整 型 数 从 本 地 字 节 序 转换 成 网 络 字 
节 序 。 


20.8 使 用 设备 范式 的 远程 文件 系统 


我 们 已 经 看 到 了 ，Xinu 使 用 设备 范式 (device paradigm) 来 表示 设备 和 文件 。 它 的 远程 文件 系统 
同样 遵从 此 模式 。 图 20-1 显示 了 定义 远程 文件 系统 主 设备 (master device) 类 型 和 一 些 远程 文件 伪 设 
f£ (pseudo-device) 类 型 的 Xinu 配置 文件 。 





/* 远程 文件 系统 主 设 备 类 型 */ 


xfs: 
on udp 
-i rfsInit -o rfsOpen -c ioerr 
-r ioerr -g ioerr -p ioerr 
-w ioerr -S ioerr -n rfsControl 
-intr NULL 


/* 远程 文件 伪 设 备 类 型 */ 


rfl: 








on rfs 
-i rflInit -o ioerr -c rflClose 
-r rflRead -g rflGetc -p rflPutc 
-w rflWrite -s rflSeek -n ioerr 
-intr NULL 





图 20-1 摘录 自 Xinu 配置 文件 ， 定 义 了 远程 文件 系统 使 用 的 两 个 设备 类 型 
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图 20-2 摘录 的 Xinu 配置 文件 定义 了 一 个 远程 文件 系统 主 设备 (RFILESYS) 和 6 个 远程 文件 伪 设 
# (RFILEO ~ RFILES) 。 





/* 远程 文件 系统 主 设备 (每 个 系统 一 个 ) */ 
RFILESYS is rfs cn udp 
/* 远程 文件 伪 设 备 ( 每 个 系统 多 个 实例 ) */ 


RFILEO is rfl cn rfs 
RFILEl is rfl on rfs 
RFILE2 is rfl on rfs 
RFILE3 is rfl on rfs 
RFILE4 is rfl on rfs 
RFILES is rfl on rfs 

















20-2 摘录 自 Xin 配置 文件 ， 定 义 了 远程 文件 系统 使 用 的 设备 








当 应 用 程序 对 远程 文件 系统 的 主 设备 调用 打开 (open) 命令 时 ， 这 个 命令 自动 分 配 一 个 远程 文件 
伪 设 备 并 返回 它 的 设备 ID (device ID ) ， 之 后 程序 就 可 以 使 用 这 个 设备 ID 来 对 其 进行 读 (read), 5 
(write) 以 及 最 终 的 关闭 (close) 操作 。20. 9 节 将 定义 远程 文件 系统 主 设备 和 远程 文件 伪 设备 共同 使 
用 的 设备 驱动 函数 (device driver functions) 。 


20.9 打开 远程 文件 

为 了 打开 一 个 远程 文件 ， 程 序 需 要 提供 文件 名 和 模式 参数 来 对 RFILESYS 设备 调用 打开 (open) 
命令 。 打 开 (open) 命令 调用 rfsOpen 函数 ，rfsOpen 函数 生成 一 个 请 求 并 调用 rfscomm 与 远程 文件 服 
务 器 进行 通信 。 如 果 成 功 ， 打 开 (open) 命令 返回 与 远程 文件 相关 联 的 远程 文件 伪 设 备 的 描述 符 
(descriptor) 。( 使 用 这 个 描述 符 就 可 以 对 远程 文件 进行 读 、 写 等 操作 了 ) rfsOpenc 文件 包含 以 下 的 
代码 。 


/* rfsOpen.c - rfsOpen */ 


#include <xinu.h> 


devcall rfsOpen ( 


struct dentry  *devptr, /* entry in device switch table */ 
char *name, /* file name to use iy 
char *mode /* mode chars: 'r' 'w' "o’ *n' */ 
) 
t 

struct rflcblk *rfptr; /* ptr to control block entry ba 
struct rf_msg_oreq msg; /* message to be sent * 
struct rf msg ores resp; /* buffer to hold response wy 
int32 retval; /* return value from rfscomm */ 
int32 len; /* counts chars in name */ 
char *nptr; /* pointer into name string */ 
char *fptr; /* pointer into file name wy 
int32 i; /* general loop index #7 


/* Wait for exclusive access */ 


wait (Rf_data.rf_mutex); 
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/* Search control block array to find a free entry */ 


for (i=0; i<Nrfl; i++) { 
rfptr = &rfltabli]; 
if (rfptr->rfstate == RF FREE) { 
break; 


} 
if (i ss rfl) t£ /* No free table slots remain *7 


signal(Rf data.rf mutex); 
return SYSERR; 


/* Copy name into free table slot */ 


nptr - name; 
fptr - rfptr-»rfname; 


len - 0; 
while ( (*fptr++ = *nptr++) !- NULLCH) ( 
len++; 
if (len >= RF_NAMLEN) { /* File name is too long Li i 
signal (Rf data.rf mutex); 
return SYSERR; 
) 
} 


/* Verify that name is non-null */ 
if (len==0) { 


signal(Rf data.rf mutex); 
return SYSERR; 


/* Parse mode string */ 
if ( (rfptr->rfmode = rfsgetmode(mode)) == SYSERR ) { 


signal(Rf_data.rf mutex); 
return SYSERR; 


/* Form an open request to create a new file or open an old one */ 


msg.rf type = htons(RF_MSG OREQ);/* Request a file open */ 
msg.rf status = htons(0); 
msg.rf seq - 0; /* rfscomm fills in seq. number */ 


nptr - msg.rf name; 
memset(nptr, NULLCH, RF NAMLEN);/* initialize name to zero bytes*/ 


while ( (*nptr++ = *name++) != NULLCH ) ( /* copy name to req. */ 
} 
msg.rf_mode = htonl(rfptr->rfmode); /* Set mode in request #4 


/* Send message and receive response */ 


retval = rfscomm((struct rf msg hdr *)&msg, 
sizeof (struct rf msg oreq), 
(struct rf msg hdr *)&resp, 
sizeof (struct rf msg ores) ); 
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/* Check response */ 


if (retval == SYSERR) ( 
signal(Rf data.rf mutex); 
return SYSERR; 

) else if (retval == TIMEOUT) { 
kprintf("Timeout during remote file open Wn Wr"); 
signal(Rf data.rf mutex); 
return SYSERR; 

) else if (ntohs(resp.rf status) != 0) ( 
signal(Rf data.rf mutex); 
return SYSERR; 

} 


/* Set initial file position */ 

rfptr->rfpos = 0; 

/* Mark state as currently used */ 

rfptr->rfstate = RF_USED; 

/* Return device descriptor of newly created pseudo-device */ 
signal (Rf_data.rf mutex); 


return rfptr->rfdev; 


) 

在 检查 参数 之 前 ，rfsOpen 首先 检查 是 否 有 空闲 的 远程 设备 可 用 。 然 后 检查 文件 名 是 否 小 于 长 度 限 
制 、 模 式 字 符 串 是 否 有 效 。 

在 分 配 远 程 文件 伪 设 备 之 前 ，rfsOpen 必须 与 远程 服务 器 通信 来 确认 文件 可 以 打开 。 它 首先 生成 一 
个 请 求 消息 ， 然 后 调用 rfscomm 把 消息 传递 到 服务 器 。 如 果 得 到 肯定 的 响应 ， 则 设置 远程 文件 设备 的 
控制 块 表 项 (control block entry) 状态 为 “使 用 ”" ，rfsOpen 设置 初始 文件 位 置 为 零 ， 然 后 返回 描述 符 给 
调用 者 。 


20.10 ”检查 文件 模式 


当 需 要 检查 文件 模式 参数 时 ，rfsOpen 以 模式 字符 串 作 为 参数 调用 rfsgetmode 函数 。 代 码 可 以 在 


rfsgetmode. c 中 找到 。 
/* rfsgetmode.c - rfsgetmode */ 


#include <xinu.h> 


int 32 rfsgetmode ( 


char *mode /* string of mode characters EA 
) 
{ 
int32 mbits; /* mode bits to return (in host */ 
/* byte order) */ 
char ch; /* next character in mode string*/ 


mbits = 0; 


while ( (ch = *mode++) != NULLCH) 


switch (ch) { 


case "r'; 


$820 3€ 远程 文件 机 制 283 


{ 


if (mbits&RF_MODE_R) { 


return SYSERR; 


} 
mbits |= 


RF_MODE_R; 


continue; 


case 'w': 


if (mbits&RF_MODE_W) 


{ 


return SYSERR; 


} 
mbits |= 


RF_MODE_W; 


continue; 


case ‘o’: 


if (mbits&RF MODE O || mbits&RF MODE N) ( 


return SYSERR; 


) 
mbits |- 
break; 


case 'n': 


RF MODE O; 


if (mbits&RF MODE O || mbits&RF MODE N) { 


return SYSERR; 


} 

mbits |= 

break; 
default: 


} 


RF_MODE_N; 


return SYSERR; 


/* If neither read nor write specified, allow both */ 


if ( (mbits&RF_MODE_RW) == 0 ) { 
mbits |= RF_MODE_RW; 

} 

return mbits; 


} 
rfsgetmode 从 模式 字符 串 中 逐个 抽取 出 字符 ， 


确认 每 个 都 是 有 效 的 ， 同 时 检查 非法 的 组 合 ( 比如 ， 


模式 字符 串 不 能 同时 包含 new 和 old SX) 。 在 扫描 模式 字符 串 的 同时 ，rfsgetmode 设置 mbits 变量 的 各 


个 位 。 当 扫描 完整 个 字符 串 并 检查 完 非法 组 合 后 


20. 11 关闭 远程 文件 


，Tfsgetmode 返回 整 型 的 mbits 变量 给 调用 者 。 


当 进 程 使 用 完了 一 个 文件 后 ， 它 可 以 调用 关闭 (close) 命令 来 释放 相应 的 远程 文件 设备 ， 系 统 将 
远程 文件 设备 给 其 他 文件 使 用 。 对 于 一 个 远程 文件 伪 设备 ， 关 闭 (close) 命令 调用 rflClose 函数 。 在 我 
们 的 实现 中 ， 关闭 一 个 远程 文件 非常 简单 。rlClose.c 文件 包含 以 下 的 代码 。 


/* rflClose.c - rflClose */ 


#include <xinu.h> 


* 
devcall rflClose ( 

struct dentry *devptr 
) 


/* entry in device switch table */ 
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struct rflcblk *rfptr; /* pointer to control block *4 
/* Wait for exclusive access */ 

wait(Rf data.rf mutex); 

/* Verify remote file device is open */ 


rfptr - &rfltab[devptr-»dvminor]; 

if (rfptr-»rfstate -- RF FREE) ( 
signal(Rf data.rf mutex); 
return SYSERR; 


/* Mark device closed */ 


rfptr->rfstate = RF FREE; 
signal(Rf data.rf mutex); 
return OK; 

) 


AA DES “SHIRE PATI REJS, rflClose 设置 控制 块 表 项 状态 为 RF_FREE。 注 意 ， 这 个 版 本 的 
rflClose 并 不 通知 文件 服务 器 文件 已 经 关闭 。 之 后 的 练习 会 建议 你 重新 设计 系统 并 加 入 通知 远程 服务 器 
文件 已 经 关闭 的 功能 。 


20.12 ” 读 远 程 文件 
一 旦 一 个 远程 文件 被 打开 ,进程 将 可 以 从 该 文件 中 读数 据 。 驱 动 器 函数 中 Read 将 执行 读 (read) 








479] fF. rflRead 的 代码 可 在 文件 rflRead.c 中 找到 。 








/* rflRead.c - rflRead */ 


#include <xinu.h> 


*/ 
devcall rflRead ( 
struct dentry *devptr, /* entry in device switch table */ 
char *buff, /* buffer of bytes wf 
int32 count /* count of bytes to read */ 
) 
{ 
struct rflcblk *rfptr; /* pointer to control block aA 
int32 retval; /* return value LA 
struct rf msg rreq msg; /* request message to send * 
struct rf msg rres resp; /* buffer for response E 
int32 i; /* counts bytes copied ad 
char *from, *to; /* used during name copy x/ 
int32 len; /* length of name */ 


/* Wait for exclusive access */ 


wait(Rf data.rf mutex); 


/* Verify count is legitimate */ 
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if ( (count <= 0) || (count > RF DATALEN) ) ( 
signal (Rf data.rf mutex); 
return SYSERR; 


/* Verify pseudo-device is in use */ 
rfptr = &rfltab[devptr-»dvminor]; 
/* If device not currently in use, report an error */ 


if (rfptr->rfstate == RF FREE) ( 
signal (Rf_data.rf_mutex) ; 
returm SYSERR; 


/* Verify pseudo-device allows reading */ 
if ((rfptr->rfmode & RF_MODE_R) == 0) { 
signal (Rf_data.rf_mutex) ; 
return SYSERR; 
} 


/* Form read request */ 


msg.rf type = htons(RF MSG RREQ); 

msg.rf status - htons(0); 

msg.rf seq - 0; /* rfscomm will set sequence 
from - rfptr-»rfname; 

to - msg.rf name; 


memset (to, NULLCH, RF NAMLEN); /* start name as all zero bytes 


( 
len = 0; 
while ( 


(*to-- = *from++) ) { /* copy name to request 
if (++len >= RF_NAMLEN) { 

signal(R£ data.rf mutex); 

return SYSERR; 


) 
msg.rf pos - htonl(rfptr-»rfpos);/* set file position 
msg.rf len - htonl(count); /* set count of bytes to read 


/* Send message and receive response */ 


retval - rfscomm((struct rf msg hdr *)&msg, 
sizeof(struct rf msg rreq), 
(struct rf msg hdr *)&resp, 
sizeof(struct rf msg rres) ); 


/* Check response */ 


if (retval -- SYSERR) ( 
signal(Rf data.rf mutex); 
return SYSERR; 
) else if (retval -- TIMEOUT) ( 
kprintf("Timeout during remote file read\n\r"); 
signal(Rf data.rf mutex); 
return SYSERR; 
) else if (ntohs(resp.rf status) !- 0) ( 
signal(Rf data.rf mutex); 
return SYSERR; 


af 


*/ 


Uf 
ali 
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/* Copy data to application buffer and update file position */ 


for (i=0; i<htonl(resp.rf_len); i++) { 
*buff++ = resp.rf_datal[i]; 
} 


rfptr->rfpos += htonl(resp.rf_len); 


signal (Rf_data.rf_mutex); 
return htonl(resp.rf len); 


) 

rflRead 函数 先 检查 参数 count ， 验 证 请 求 消息 没有 越界 。 然 后 它 验证 伪 设 备 已 打开 并 且 当 前 模式 多 
许 读 操作 。 一 旦 检查 完成 ， 咀 Read 函数 执行 读 (read) 操作 : 它 构造 读 请 求 消息 ， 使 用 rfscomm 函数 
将 消息 的 副本 发 送 给 服务 器 ， 并 接收 响应 ， 解 析 响 应 消息 。 

如 果 rfscomm 函数 返回 一 个 有 效 的 响应 ， 则 此 消息 将 包含 读 取 的 数据 。 划 Read 函数 将 数据 从 响应 
消息 复制 到 调用 者 的 缓冲 区 ， 更 新 文件 位 置 ， 并 将 读 取 数据 的 字 节 数 返 回 给 调用 者 。 


20.13 “ 写 远 程 文件 
向 一 个 远程 文件 写 数据 的 流程 与 从 一 个 远程 文件 读数 据 的 流程 相同 。 驱 动 器 函数 中 Write 执行 写 
(write) 操作 。 它 的 代码 可 在 文件 rWrite.c 中 找到 。 


/* rflWrite.c = rflWrite */ 


#include <xinu.h> 


ai 
devcall rflWrite ( 
struct dentry *devptr, /* entry in device switch table */ 
char  *buff, /* buffer of bytes * 
int32 count /* count of bytes to write */ 
) 
{ 
struct, rflebik *rfptr; /* pointer to control block x 
int32 retval; /* return value kf 
struct rf_msg_wreq msg; /* request message to send ef 
struct rf msg wres resp; /* buffer for response * 
char *from, *to; /* used to copy name */ 
int i; /* counts bytes copied into req */ 
int32 len; /* length of name yi 


/* Wait for exclusive access */ 
wait(Rf data.rf mutex); 
/* Verify count is legitimate */ 
if ( (count «- 0) || (count » RF DATALEN) ) ( 
signal(Rf data.rf mutex); 
return SYSERR; 
/* Verify pseudo-device is in use and mode allows writing */ 


rfptr - &rfltab[devptr-»dvminor]; 
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if ( (rfptr->rfstate == RF_FREE) || 
! (rfptr->rfmode & RF_MODE W) ) { 
signal (Rf_data.rf_mutex); 
return SYSERR; 


/* Form write request */ 


msg.rf type = htons(RF MSG WREQ); 
msg.rf status - htons(0); 
msg.rf seq - 0; /* rfscomm will set sequence 
from = rfptr-»rfname; 
to - msg.rf name; 
memset(to, NULLCH, RF NAMLEN);  /* start name as all zero bytes 
len = 0; 
while ( (*to++ = *from++) ) { /* copy name to request 
if (++len >= RF NAMLEN) ( 
signal (Rf_data.rf_mutex) ; 
return SYSERR; 


} 


while ( (*to++ = *from++) ) { /* copy name into request 

} 

msg.rf_pos = htonl(rfptr->rfpos);/* set file position 
msg.rf_len = htonl(count); /* set count of bytes to write 
for (i=0; i«count; i++) ( /* copy data into message 


msg.rf data[i] = *buff++; 
} 
while (i < RF_DATALEN) { 
msg.rf_data[i++] = NULLCH; 
} 


/* Send message and receive response */ 


retval = rfscomm((struct rf msg hdr *)&msg, 
Sizeof(struct rf msg wreq), 
(struct rf msg hdr *)&resp, 
sizeof(struct rf msg wres) ); 


/* Check response */ 


if (retval -- SYSERR) ( 
signal (Rf_data.rf_mutex) ; 
return SYSERR; 
} else if (retval == TIMEOUT) { 
kprintf£ ("Timeout during remote file read\n\r") ; 
signal (Rf_data.rf_mutex) ; 
return SYSERR; 
} else if (ntohs(resp.rf_status) != 0) { 
signal (Rf_data.rf_mutex) ; 
return SYSERR; 
} 


/* Report results to caller */ 
rfptr->rfpos += ntohl(resp.rf len); 


signal (Rf_data.rf_mutex) ; 
return ntohl(resp.rf_len); 


#7 


y 


y 


v 


£y 
Ey 
di 
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与 读 (read) 操作 一 样 ，Write 函数 先 检查 参数 count， 验 证 伪 设 备 已 打开 并 且 当前 模式 允许 写 。 
然后 rflWrite 函数 构造 写 请 求 消息 ， 使 用 rfscomm 函数 将 消息 发 送 给 服务 器 。 
与 读 (read) 请 求 不 一 样 的 是 ， 写 (write) 请 求 包含 数据 。 因 此 ， 当 人 构造 写 请 求 消息 时 ，rWrite 
480| ”函数 将 数据 从 用 户 的 缓冲 区 复制 到 请 求 消息 里 。 当 一 个 响应 到 达 时 ， 响 应 消息 并 不 包含 已 写 和 数据 的 
484| 副本。 因此，rlWrite 函数 在 消息 中 使 用 状态 字段 来 决定 向 调用 者 报告 成 功 还 是 失败 。 


20.14 远程 文件 的 定位 

远程 文件 系统 应 当 如 何 实现 定 位 (seek) 操作 ? 有 两 种 可 能 的 选择 。 在 一 种 设计 中 ， 系 统 发 送 消 
息 给 远程 文件 服务 器 ， 远 程 文件 服务 器 定位 到 文件 的 指定 位 置 。 在 另 一 种 设计 中 ， 所 有 的 位 置 数据 都 
保存 在 本 地 计算 机 中 ， 每 一 个 向 服务 器 发 送 的 请 求 都 包含 一 个 显 式 的 文件 位 置 。 

本 章 的 实现 使 用 了 后 者 : 当前 文件 位 置 存储 在 远程 文件 设备 的 控制 块 和 人 口中 。 当 读 (read) 操作 
被 调用 时 ，rtlRead 向 服务 器 请 求 数据 并 相应 地 更 新 控制 块 入 口中 的 文件 位 置 数据 。 因 为 每 一 个 请 求 都 
包含 显 式 的 位 置信 息 ， 所 以 远程 服务 器 无 需 记录 位 置信 息 。 

因为 所 有 的 文件 位 置信 息 都 存储 在 客户 端 ， 所 以 定位 (seek) 操作 可 以 在 本 地 进行 。 这 意味 着 在 
下 一 次 读 (read) 或 写 (write) 操作 中 ， 存 储 在 控制 块 入 口中 的 文件 位 置信 息 仍 可 以 使 用 。rlSeek K 
数 在 远程 文件 设备 上 执行 定位 操作 。 隐 数 的 代码 可 在 文件 rflSeek.c 中 找到 。 


/* rflSeek.c - rflSeek */ 





#include <xinu.h> 


ad 
devcall rflSeek ( 
struct dentry *devptr, /* entry in device switch table */ 
uint32 pos /* new file position */ 
) 


struct rflcblk *rfptr; /* pointer to control block ky 
/* Wait for exclusive access */ 

wait(Rf data.rf mutex); 

/* Verify remote file device is open */ 


rfptr - &rfltab[devptr-»dvminor]; 

if (rfptr-»rfstate -- RF FREE) ( 
signal(Rf data.rf mutex); 
return SYSERR; 


) 
/* Set the new position */ 


rfptr->rfpos = pos; 
signal(Rf data.rf mutex); 
return OK; 
} 
上 面 的 代码 很 简单 。 在 得 到 独占 访问 权限 后 ，rflSeek 函数 验证 设备 是 否 打 开 。 接 着 函数 在 控制 块 


的 rfpos 字段 存储 文件 位 置 参数 ， 发 出 互 斥 信号 量 ， 然 后 返回 。 


20.15 “远程 文件 单字 符 1/0 
使 用 远程 文件 服务 器 读 、 写 单个 字 节 数据 的 代价 是 昂贵 的 ， 因 为 每 一 个 字符 都 必须 有 一 个 对 
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应 的 消息 发 送 到 服务 器 上 。 但 是 Xin 实现 并 没有 禁止 单个 字符 的 IO， 有 关 gete 和 pute 的 实现 仅 
仅 只 是 分 别 调用 了 远程 文件 函数 mlRead 和 rflWrite, PA BCH) X83 n] ZE ff rflGet.c 和 rflPut.c 中 
找到 。 


/* rflGetc.c - rflGetc */ 


#include «xinu.h» 


*/ 

devcall rflGetc( 
struct dentry *devptr /* entry in device switch table */ 
) 

{ 
char ch; /* character to read a 
int32 retval; /* return value zy 
retval = rflRead(devptr, &ch, 1); 
if (retval != 1) { 

return SYSERR; 

} 
return (devcall)ch; 

} 


/* rflPutc.c - rflPutc */ 


#include <xinu.h> 


*/ 

devcall rflPutc( 
struct dentry  *devptr, /* entry in device switch table */ 
char ch /* character to write kj 
) 

{ 
struct  rflcblk *rfptr; /* pointer to rfl control block */ 
rfptr - &rfltab[devptr-»dvminor]; 
if (rflWrite(devptr, &ch, 1) != 1) { 

return SYSERR; 

} 
return OK; 

} 


20.16 ”远程 文件 系统 控制 函数 


很 多 的 文件 操作 需要 打开 (open), i (read) 、 写 (write) 和 关闭 (close) 函数 的 底层 支持 。 例 
如 ， 这 些 函 数 对 删除 一 个 文件 而 言 是 必需 的 。Xinu 远程 文件 系统 使 用 控制 (control) 函数 来 实现 这 些 
功能 。 图 20-3 列 出 了 控制 函数 所 使 用 的 符号 常量 及 其 意义 。 

一 个 控制 (control) 函数 是 在 设备 RFILESYS (远程 文件 系统 的 主 设备 ) 上 执行 ， 而 不 是 在 独立 的 
远程 文件 设备 上 执行 。 驱 动 器 函数 rfsControl 实现 了 控制 (control) 操作 ， 它 的 代码 可 在 文件 rfsCon- 
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tral.c 中 找到 。 
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常量 意义 
RFS_CTL_DEL 删除 给 定 文件 
RFS_CTL_TRUNC 截断 给 定 文件 为 0 字 节 
RFS_CTL_MKDIR | 创建 一 个 目录 | 
RFS_CTL_RMDIR 删除 一 个 目录 | 
RFS_CTL_SIZE 返回 当前 文件 的 字 节 数 








图 20-3 ”在 远程 文件 系统 中 使 用 的 控制 函数 


/* rfsControl.c - rfsControl */ 


#include <xinu.h> 


*/ 
devcall 


rfsControl ( 


struct dentry *devptr, /* entry in device switch table */ 
int32 func, /* a control function */ 
int32 argl, /* argument #1 ey 
int32 arg2 /* argument #2 */ 
) 

int32 len; /* length of name #/ 
struct rf_msg_sreq msg; /* buffer for size request ES 
struct rf msg sres resp; /* buffer for size response bas 
struct rflcblk *rfptr; /* pointer to entry in rfltab kd 
char *to, *from; /* used during name copy ial 
int32 retval; /* return value *f 


/* Wait for exclusive access */ 

wait(Rf data.rf mutex); 

/* Check length and copy (needed for size) */ 
rfptr - &rfltab[devptr-»dvminor]; 


from - rfptr-»rfname; 
to - msg.rf name; 


len - 0; 
memset (to, NULLCH, RF NAMLEN); /* start name as all zeroes 
while ( (*to++ = *fromt+) ) ( /* copy name to message 
len++; 
if (len >= (RF_NAMLEN - 1) ) { 
Signal(Rf data.rf mutex); 
return SYSERR; 
) 
} 


switch (func) { 


/* Delete a file */ 


case RFS_CTL_DEL: 
if (rfsndmsg(RF MSG DREQ, (char *)argl) == SYSERR) ( 


af 
*/ 
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signal(Rf data.rf mutex); 
return SYSERR; 


) 
break; 


/* Truncate a file */ 


case RFS CTL TRUNC: 
if (rfsndmsg(RF MSG TREQ, (char *)argl) -- SYSERR) ( 
signal(Rf data.rf mutex); 
return SYSERR; 


break; 


/* Make a directory */ 


case RFS CTL MKDIR: 
if (rfsndmsg(RF MSG MREQ, (char *)argl) -- SYSERR) ( 
signal(Rf data.rf mutex); 
return SYSERR; 
} 
break; 


/* Remove a directory */ 


case RFS_CTL_RMDIR: 
if (rfsndmsg(RF MSG XREQ, (char *)argl) == SYSERR) ( 
signal(Rf data.rf mutex); 
return SYSERR; 
) 
break; 


/* Obtain current file size (non-standard message size) */ 
case RFS CTL SIZE: 


/* Hand-craft a size request message */ 

msg.rf type - htons(RF MSG SREQ); 

msg.rf status - htons(0); 

msg.rf seq - 0; /* rfscomm will set the seq num */ 


/* Send the request to server and obtain a response Ry 


retval = rfscomm( (struct rf msg hdr *) &msg, 
sizeof (struct rf msg sreq), 
(struct rf msg hdr *)&resp, 
sizeof (struct rf msg sres) ); 
if ( (retval -- SYSERR) || (retval -- TIMEOUT) ) ( 
signal(Rf data.rf mutex); 
return SYSERR; 
) else ( 
signal(Rf data.rf mutex); 
return ntohl(resp.rf size); 


default: 
kprintf("rfsControl: function $d not valid\n\r", func); 
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signal(Rf data.rf mutex); 
return SYSERR; 
} 


signal (Rf_data.rf_mutex); 
return OK; 
) 
对 所 有 的 控制 函数 而 言 ， 参 数 argl 包含 了 一 个 指向 以 空 字符 终止 的 函数 名 称 的 指针 。 在 得 到 对 文 
件 的 独占 访问 并 检查 文件 名 长 度 之 后 ，dsControl 函数 使 用 函数 参数 在 多 个 操作 中 做 出 选择 。 这 些 操作 
包括 文件 删除 、 文 件 截断 、 创 建 目录 、 删 除 目 录 和 文件 大 小 请 求 。 在 每 个 操作 中 ，rfsControl 函数 必须 
向 远程 文件 服务 器 发 送 消 息 并 接收 响应 。 
除了 文件 的 大 小 请 求 外 ， 所 有 发 送 给 服务 器 的 消息 只 包含 通用 头 字段 。 因 此 ， 除 了 文件 大 小 请 求 
函数 外 ，rfsControl 使 用 rfsndmsg 生成 请 求 并 向 服务 器 发 送 该 请 求 。 对 于 文件 大 小 请 求 ，rfsControl 在 变 
Ti msg 中 创建 一 个 消息 ， 并 使 用 rfscomm 函数 来 发 送 消息 ， 接 收 响应 。 为 了 避免 扫描 文件 名 两 次 ，rfs- 
Control 函数 在 检查 文件 名 长 度 时 ， 将 文件 名 复制 到 变量 msg 的 名 称 字段 中 。 因 此 ， 当 rfsControl 函数 创 
建文 件 大 小 请 求 时 ， 就 不 需要 额外 的 文件 名 复制 操作 。 如 果 一 个 文件 大 小 请 求 的 有 效 响应 到 达 ，rfs- 
Control 函数 就 从 响应 中 抽取 文件 大 小 ， 将 它 转换 为 本 地 字 节 序 ， 然 后 将 其 值 返回 给 调用 者 。 在 其 他 操 
fe, rfsControl 函数 既 可 能 返回 状态 OK， 也 可 能 返回 状态 SYSERR, 


20.17 ”初始 化 远程 文件 数据 结构 
因为 本 章程 序 设计 包括 一 个 远程 文件 系统 主 设备 和 一 系列 远程 文件 伪 设 备 ， 所 以 系统 需要 两 个 初 
和 6 化 函数 。 第 一 个 是 rsInit 函数 ， 它 初始 化 与 主 设备 相关 的 控制 块 。 中 mite 文件 中 包含 以 下 代码 。 


/* rfsInit.c = rfsInit */ 
#include <xinu.h> 


struct rfdata Rf data; 


87 
devcall rfsInit( 

struct dentry *devptr /* entry in device switch table */ 
) 


/* Choose an initial message sequence number */ 
Rf data.rf seq = 1; 
/* Set the server IP address, server port, and local port */ 


if ( dot2ip(RF SERVER IP, &Rf data.rf ser ip) == SYSERR ) ( 
panic("invalid IP address for remote file server"); 

H 

Rf data.rf ser port = RF SERVER PORT; 

Rf data.rf loc port - RF LOC PORT; 


/* Create a mutual exclusion semaphore */ 


if ( (Rf data.rf mutex - semcreate(1)) -- SYSERR ) ( 
panic("Cannot create remote file system semaphore"); 


} 
/* Specify that the server port is not yet registered */ 


Rf data.rf registered = FALSE; 
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return OK; 
} 
主 设备 的 数据 保存 在 全 局 变量 RE_data 中 。rfsInit 函数 在 RE data 结构 的 字段 中 设置 远程 服务 器 的 
IP 地 址 和 UDP 端口 号 ， 还 分 配 一 个 互 斥 信号 量 并 把 该 信号 量 ID 保存 在 结构 中 。rfsinit 函数 把 rf. regis- 
tered 字段 设置 为 FALSE， 表 示 在 与 服务 器 通信 之 前 ， 必 须 用 网 络 代码 注册 服务 器 的 UDP 端口 。 
rfllnit 函数 初始 化 各 个 远程 文件 设备 。mInite 文件 中 的 代码 如 下 。 


/* rflinit.c = rflinit */ 
#include «xinu.h» 


struct rflcblk rfltab[Nrfl]; /* rfl device control blocks vy 


id 
devcall rflInit( 
struct dentry *devptr /* entry in device switch table */ 
) 
{ 
struct rilcblk *rflptr; /* ptr. to control block entry */ 
int32 dur /* walks through name arrary ed 
rflptr - &rfltab[ devptr-»dvminor ]; 
/* Initialize entry to unused */ 
rflptr->rfstate = RF FREE; 
rflptr->rfdev = devptr->dvnum; 
for (i=0; i«RF NAMLEN; i++) { 
rflptr->rfname[i] = NULLCH; 
} 
rflptr->rfpos = rflptr->rfmode = 0; 
return OK; 
) 


finit 把 表 项 的 状态 设置 为 RF_FREE， 表 明 该 表 项 目前 未 被 使 用 。 该 函数 也 将 raptr 变量 的 名 字 和 
模式 字段 置 零 。 如 果 dlptr 的 状态 标记 为 RF_FREE， 那 么 该 表 项 的 其 他 字段 不 得 被 引用 。 将 该 表 项 的 
字段 置 零 有 助 于 程序 调试。 


20.18 MWA 

与 本 地 文件 系统 一 样 ， 设 计 远 程 文件 系统 过 程 中 的 最 复杂 选择 在 于 如 何在 效率 和 文件 共享 之 间 寻 
找平 衡 。 为 了 理解 这 个 选择 ， 想 象 运行 在 多 个 计算 机 上 但 共享 一 个 文件 的 多 个 应 用 程序 。 在 极端 情况 
下 ,为 了 保证 共享 文件 最 后 写 语 义 的 正确 性 ， 文 件 的 各 个 操作 应 按 它们 出 现 的 顺序 发 送 到 远程 服务 器 ， 
这 样 可 以 将 请 求 序列 化 并 应 用 到 文件 上 。 在 男 一 个 极端 情况 下 ,计算 机 可 以 缓存 文件 (或 者 部 分 文 
fF) 并 且 可 以 从 本 地 缓存 中 读 取 文件 信息 ,效率 可 以 达到 最 大 化 。 本 书 设计 远程 文件 系统 的 目标 是 ， 
在 没有 文件 共享 时 ， 人 性 能 最 大 化 ; 在 需要 共享 文件 时 , 保证 正确 性 ， 并 能 够 在 这 两 个 极端 之 间 自 动 、 
优雅 地 切换 。 


20.19 总结 


远程 文件 访问 机 制 允 许 客户 端 计算 机 访问 存储 在 远程 服务 器 上 的 文件 。 示 例 中 使 用 一 种 通过 调用 
远程 文件 系统 主 设备 的 打开 (open) 函数 来 获得 远程 文件 伪 设 备 ID 的 设备 范式 。 然 后 应 用 程序 可 以 在 
伪 设 备 上 调用 读 (read) 和 写 (write) 函数 。 
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当 应 用 程序 访问 远程 文件 时 ， 远 程 文件 程序 创建 一 条 消息 ， 发 送 消息 到 远程 文件 服务 器 ， 等 待 响 
应 并 解析 响应 。 程 序 传送 各 个 请 求 多 次 以 防 网 络 丢 包 或 服务 器 过 于 忙碌 而 难以 回应 。 

文件 删除 、 截 断 、 创 建 和 删除 目录 ， 文 件 大 小 查询 等 操作 由 control 函数 完成 。 与 数据 传输 操作 一 
样 ， 调 用 control 函数 将 引起 请 求 消息 的 传送 和 来 自 服务 器 的 响应 。 


练习 

20.1 ”修改 远程 文件 服务 器 和 rflClose 函数 ， 使 得 rfClose 函数 在 每 次 文件 关闭 时 发 送 消息 到 服务 器 并 让 服 
务 器 返回 响应 。 

20.2 底层 协议 限制 读 请 求 的 数据 大 小 为 RF_DATALEN ji, rflRead 拒绝 任何 申请 更 大 尺寸 的 请 求 。 
修改 rflRead 函数 使 得 用 户 可 以 申请 任意 大 小 的 数据 ,但 是 仍 限制 请 求 消息 的 大 小 为 RF_DATA- 
LEN (也 就 是 说 ,不 拒绝 更 大 的 请 求 ， 但 限制 返回 的 数据 为 RF DATALEN 字 节 ) 。 

20.3 类似 上 述 练 习 ， 请 设计 一 个 系统 ， 使 由 Read 函数 能 够 申请 任意 大 小 的 数据 并 通过 发 送 多 个 请 求 来 
完成 。 

20.4 rflGetc 中 的 代码 直接 调用 rflRead 函数 ， 这 样 的 设计 会 产生 什么 潜在 的 问题 ? 修改 代码 使 得 在 调用 该 
函数 时 使 用 设备 转换 表 。 

20.5 考虑 男 一 个 能 够 提高 效率 的 远程 文件 系统 方案 。 修 改 Read 函数 使 得 它 每 次 均 请 求 RF_DATALEN 
字 节 ， 以 便 调用 者 请 求 更 小 的 尺寸 。 将 额外 的 字 节 放 在 缓存 中 ， 并 让 它 可 用 于 接 下 来 的 调用 。 

20.6 在 前 面 的 练习 中 ,将 数据 缓存 用 于 接 下 来 的 读 调 用 的 主要 缺陷 是 什么 ? (提示 : 考虑 服务 器 的 文 
件 共享 。) 

20.7 考虑 当 两 个 客户 端 同时 企图 使 用 远程 文件 服务 器 时 会 发 生 什 么 。 当 每 个 客户 端 启 动 时 ， 它 们 均 
将 起 始 包 顺 序号 设置 为 1， 这 使 得 出 现 冲突 的 概率 极 高 。 修 改 系统 ， 改 用 随机 起 始 包 顺序 号 
(同时 修改 服务 器 使 它 能 够 接受 任意 起 始 顺序 号 ) 。 
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玫瑰 的 另 一 个 名 字 。 
一 一 威廉 莎士比亚 


21.1 引言 

本 书 第 14 章 简 述 了 一 系列 设备 无 关 的 输入 /输出 操作 (包括 读 和 写 )， 描 述 了 设备 转换 表 如 何 为 每 
个 设备 提供 高 层 操作 与 驱动 器 函数 之 间 的 有 效 映射 。 后 面 的 章节 将 详细 描述 如 何 构建 设备 驱动 器 ， 并 
提供 相应 示例 。 第 20 章 解 释 了 文件 系统 如 何 嵌 入 设备 范式 ， 并 解释 了 伪 设 备 的 概念 。 

本 章 将 讲解 设备 名 字 ， 解 释 如 何 从 语法 角度 理解 名 字 ， 在 统一 名 字 空 间 中 如 何 表示 设备 与 文件 。 


21.2 透明 与 名 字 空间 的 抽象 

对 上 层 的 透明 是 操作 系统 设计 的 基本 原则 之 一 : 

只 要 可 能 ， 应 用 程序 就 不 应 该 知道 实现 的 细节 ， 如 对 象 的 位 置 或 者 它 的 表示 形式 。 497 

例如 ， 当 应 用 程序 创建 一 个 新 进程 时 ， 它 不 需要 知道 栈 空 间 在 何 处 分 配 。 类 似 地 ， 当 应 用 程序 打 
开 了 一 个 本 地 文件 时 ， 它 也 不 需要 知道 该 文件 所 在 的 磁盘 块 。 

对 于 文件 访问 ，Xinu 范式 似乎 违反 了 透明 原则 ， 因 为 它 在 应 用 程序 打开 文件 时 需要 用 户 提供 文件 
系统 名 称 。 例 如 ， 本 地 文件 系统 的 主 设备 名 为 LFILESYS。 当 Xin 系统 包含 远程 文件 系统 时 ， 就 更 加 
严重 地 违背 了 透明 原则 : 程序 员 必 须知 道 远程 文件 系统 的 主 设备 名 称 (RFILESYS) ， 必 须 在 本 地 文件 
和 远程 文件 之 间 做 出 选择 。 而 且 ， 文 件 名 也 必须 符合 特定 系统 的 命名 风格 。 

如 何 才 能 在 文件 与 设备 命名 上 保持 透明 呢 ? 答案 就 是 提供 一 个 高 层 抽 象 一 一 名 字 空 间 。 从 概念 上 
讲 ， 名 字 空 间 提供 一 系列 统一 的 名 字 ， 这 些 名 字 将 不 同 的 文件 命名 方式 整合 为 一 个 整体 ， 人 允许 用 户 在 
不 知 文件 位 置 的 情况 下 打开 文件 或 设备 。UNIX 系统 通过 文件 系统 提供 名 字 空 间 抽象 : 本 地 文件 、 远 程 
文件 和 设备 在 分 层 文件 名 字 空 间 中 命名 。 例 如 : 名 字 /dev/console 通常 对 应 于 系统 控制 台 设备 ， 而 名 字 
/dev/usb 对 应 于 USB 设备 。 

Xinu 采用 一 个 新 颖 的 方法 将 名 字 空 间 机 制 与 底层 文件 系统 进行 分 离 。 而 且 ，Xinu 使 用 句法 的 方 
法 ， 也 就 是 说 ， 名 字 空 间 检验 名 字 时 不 需要 理解 它们 的 具体 含义 。 简 单 和 能 力 的 结合 是 名 字 空 间 有 吸 
引力 的 原因 。 通 过 将 名 字 理 解 为 一 个 字符 串 ， 我 们 可 以 理解 它们 之 间 的 相似 性 。 通 过 使 用 前 缀 字符 串 
与 树 之 间 的 关系 ,能够 轻易 地 操纵 名 字 。 通 过 遵循 透明 原则 ， 系 统 效率 能 够 得 到 大 幅 地 提升 。 通 过 往 
现 有 机 制 中 添加 一 个 中 间 层 的 办 法 ， 能 够 实现 统一 命名 的 目的 。 

在 介绍 名 字 空 间 机 制 之 前 ， 本 书 先 通过 一 些 已 有 的 文件 命名 示例 来 了 解 遇 到 的 问题 。 讨 论文 件 命 
名 后 ， 读 者 将 了 解 通用 句法 命名 方案 ， 然 后 验证 一 个 简单 的 、 专 用 的 方案 。 最 后 ， 将 验证 一 个 简化 方 
案 的 实现 。 

213 多 种 命名 方案 

设计 名 字 空 间 时 ， 设 计 者 面临 的 问题 很 简单 : 他 们 必须 将 众多 不 相关 的 命名 方案 整合 在 一 起 ， 而 
各 个 命名 方案 又 各 自演 进 为 一 个 自 包含 的 系统 。 在 某 些 系统 中 ， 文 件 名 指明 了 该 文件 所 在 的 存储 设备 。 
而 另 一 些 系统 中 ， 文 件 用 后 组 来 表明 文件 的 类 型 ( 老 的 系统 使 用 后 缀 来 指明 文件 的 版 本 )。 其 他 系统 
将 所 有 的 文件 映射 到 平面 名 字 空 间 中 ， 这 里 文件 名 仅仅 是 一 个 由 字母 和 数字 组 成 的 字符 串 。 本 章 后 面 
将 给 出 一 些 系统 中 文件 名 的 例子 ， 和 希望 能 够 帮助 读者 理解 名 字 空 间 必 须 适 应 的 名 字 类 型 与 格式 。 
21.3.1 MS-DOS 

MS-DOS 中 的 名 字 包 含 两 部 分 : 设备 说 明和 文件 名 。 从 句法 上 讲 ，MS- DOS 名 字 的 格式 为 X:file， 
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其 中 X 为 单一 的 字母 ， 指 定 保 存 该 文件 的 磁盘 设备 ; file 为 文件 的 名 字 。 特 别 地 ， 字 母 C 代表 系统 便 
f, Ciabe 表示 的 是 在 硬盘 上 的 文件 abc. 


21.3.2 UNIX 

UNIX 将 文件 组 织 成 一 种 分 层 的 树 形 结构 目录 系统 。 文 件 名 是 针对 当前 目录 的 相对 路 径 或 者 从 根 目 
录 开 始 直到 文件 的 完整 路 径 名 。 

从 名 法 上 看 ， 完 整 路 径 名 由 一 些 被 斜 杠 划分 的 组 件 组 成 ， 中 间 的 组 件 表 示 目 录 ， 最 后 一 个 组 件 表 
示 文 件 。 因 此 ，UNIX 文件 名 /homes/xinu/x 指 的 是 在 子 目录 xinu 下 的 文件 x， 而 目录 xinu 是 homes 的 
子 目 录 ，homes 是 根 目录 。 根 目录 本 身 可 以 用 单独 的 斜 杠 (/) 表示 。 注 意 ， 前 级 /home/xinu/ 指 的 是 一 
个 目录 ， 而 该 目录 下 所 有 的 文件 都 包含 这 个 前 级 。 

以 后 前 组 属性 的 重要 性 将 会 变 得 很 明显 。 现 在 ， 只 需要 记 住 树 形 结构 与 名 字 前 级 相关 : 

当 文 件 名 中 的 组 件 指定 的 是 树 形 结构 目录 的 路 径 时 ， 保 存在 同一 个 目录 下 的 所 有 文件 的 
名 字 都 共享 同一 个 表示 该 目录 的 前 缓 。 


21.3.3 V 系统 

V 系统 是 一 种 用 于 研究 的 操作 系统 ， 它 允许 用 户 指定 上 下 文 和 一 个 名 字 来 命名 ， 系 统 通过 上 下 文 
来 解析 名 字 。 语 法 上 它 用 括号 将 上 下 文 括 起 来 。 因 此 ，[xtx ] abe 表示 在 etx 上 下 文中 的 名 为 ahe 的 文 
件 。 通 常 ， 可 以 把 各 个 上 下 文 当做 某 个 远程 服务 器 上 的 一 系列 文件 的 集合 。 


21.3.4 IBIS 


另 一 种 用 于 研究 的 操作 系统 IBIS 为 多 个 机 器 连接 提供 另 一 种 语法 。 在 IBIS 中 ， 名 字 的 格式 为 : 
machine:path。 其 中 machine 代表 某 个 特定 计算 机 系统 ， 而 path 则 是 该 机 器 上 的 文件 名 (fun, UNIX 
上 的 完整 路 径 ) 。 


21.4 命名 系统 设计 的 其 他 方案 


我 们 需要 的 是 一 个 能 够 提供 与 文件 位 置 、 文 件 所 在 操作 系统 等 无 关 的 统一 命名 系统 。 一 般 来 说 ， 
设计 者 解决 这 个 问题 有 两 个 基本 方向 : 设计 一 个 新 的 文件 命名 方案 或 者 改进 现 有 的 某 个 命名 方案 。 
令 人 惊奇 的 是 ，Xinu 名 字 空 间 没 有 使 用 这 两 种 方案 ! 它 通过 添加 一 个 语法 命名 机 制 来 整合 众多 底层 
的 命名 方案 ， 为 用 户 提供 命名 软件 的 统一 接口 。 该 命名 软件 将 用 户 提供 的 名 字 映 射 到 底层 系统 中 。 

通过 上 面 的 命名 机 制 来 整合 众多 底层 命名 方案 有 以 下 优点 : 第 一 ， 它 允许 设计 者 将 现 有 文件 系统 
和 设备 整合 到 一 个 统一 的 名 字 空 间 中 ， 即 便 它们 是 由 一 系列 蜡 构 系统 中 的 远程 服务 器 所 实现 ; 第 二 ， 
它 允 许 设计 者 在 不 重新 编译 应 用 程序 的 情况 下 添加 新 设备 或 文件 系统 。 从 一 个 极端 角度 看 ， 选 择 最 简 
单 的 命名 方案 保证 所 有 的 文件 系统 都 能 处 理 那 些 名 字 ， 但 这 也 意味 着 用 户 不 能 利用 某 些 服务 器 提供 的 
复杂 服务 ; 从 另 一 个 极端 看 ， 选 择 一 个 包含 最 复杂 情况 的 命名 方案 ， 虽 然 可 以 充分 利用 某 些 服务 器 的 
复杂 性 ， 但 相对 简单 的 文件 系统 又 可 能 不 能 很 好 地 支持 它 。 


21.5 基于 句法 的 名 字 空 间 

可 以 通过 考虑 名 字 的 句法 来 理解 如 何 处 理 这 些 名 字 : 一 个 名 字 仅 仅 是 一 串 字 符 。 名 字 空 间 可 以 用 
来 对 字符 串 进行 转换 。 对 于 名 字 空 间 来 说 ， 既 不 需要 提供 文件 和 路 径 ， 也 不 需要 理解 每 一 个 底层 文件 
系统 的 语义 。 相 反 ， 名 字 空 间 将 用 户 选 用 的 统一 表示 的 字符 串 映射 到 每 一 个 特定 的 子 系统 上 。 例 如 ， 
名 字 空 间 能 够 将 字符 串 alf 转换 成 字符 串 C:a_long_file_name。 

什么 使 基于 句法 的 名 字 空 间 有 如 此 强大 的 功能 呢 ? 基 于 句法 的 方法 既 自 然 又 灵活 ， 既 容易 使 用 ， 
也 容易 理解 ， 并 且 能 够 很 好 地 兼容 许多 底层 的 命名 方案 。 用 户 可 以 使 用 一 组 一 致 的 命名 方案 ， 然 后 使 
用 该 命名 软件 将 现 有 的 名 字 格 式 转换 成 底层 文件 系统 所 要 求 的 格式 。 例 如 ， 假 设 本 地 文件 系统 使 用 
MS-DOS 命名 系统 ， 而 远程 文件 系统 使 用 UNIX 全 路 径 名 字 系统 。 用 户 可 以 将 所 有 的 名 字 格 式 都 改 成 远 
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程 UNIX 系统 所 要 求 的 全 路 径 名 字 语 法 ， 将 本 地 磁盘 上 的 名 字 以 [local 开头 。 在 这 种 方案 中 ， 名 字 /lo- 
cal/abe 指 的 是 本 地 硬盘 系统 中 的 abe 文件 ， 而 名 字 /ete/passwd 指 的 是 远程 的 文件 。 名 字 空 间 必须 将 / 
local/abe 转换 成 C:abe， 这 样本 地 MS-DOS 文件 系统 才能 够 识别 它 ， 但 是 该 名 字 空 间 能 够 将 文件 /ete/ 
passwd 传送 给 远程 UNIX 文件 系统 而 不 需要 对 它 进行 任何 变化 。 


21.6 模式 和 替换 

基于 句法 的 名 字 空 间 是 如 何 精确 运行 的 呢 ? 一 种 简便 的 方法 是 使 用 模式 (pattern) 字符 串 去 指定 

BEAK, JLT (replacement) 字符 串 去 指定 相应 的 映射 。 例 如 ， 考 虑 如 下 的 模式 替换 对 : 
"/local' "C:" 
意思 是 “将 所 有 出 现 的 /local 字符 串 都 转换 成 字符 串 C:”。 

如 何 购 成 这 种 模式 呢 ? 由 文字 串 组 成 的 模式 无 法 明确 地 指定 相应 的 替换 字符 串 。 在 上 面 的 例子 中 ， 
模式 对 于 形 如 /local/x 这 样 的 字符 串 表现 出 非常 良好 的 性 能 ， 但 是 对 于 形 如 /homes/local/bin 这 样 的 字 
符 串 却 表 现 得 很 差 ， 因 为 /local 不 应 该 转换 为 内 部 子 字符 串 。 为 此 ， 必 须 使 用 更 加 强 有 力 的 模式 。 
UNIX 模式 匹配 工具 引入 了 说 明 如 何 进 行 匹配 的 元 字符 。 例 如 ，carat (有 时 候 也 称 为 上 箭头 ) 被 用 来 
对 字符 串 的 开头 进行 匹配 。 因 此 ，UNIX 模式 为 : 

"^/local" "C:" 
指出 /local 只 能 对 字符 串 的 开头 进行 匹配 。 不 幸 的 是 ， 如 果 人 允许 任意 模式 出 现 ， 则 会 使 得 替换 变 得 非常 
麻烦 ， 并 且 模 式 会 变 得 难以 理解 。 因 此 ， 还 需要 一 种 更 加 有 效 的 解决 方法 。 


21.7 前缀 模式 

现在 急需 解决 的 问题 是 在 不 增加 不 必要 复杂 性 的 前 提 下 ， 找 到 一 种 允许 用 户 定义 子 系统 名 字 匹 配 
方法 的 模式 蔡 换 策略 。 在 考虑 复杂 模式 前 ， 先 考虑 使 用 包含 文字 串 的 模式 能 够 做 些 什 么 。 这 个 设计 的 
关键 是 将 文件 想象 成 是 按 层 组 织 的 ， 并 使 用 前 级 属性 来 理解 为 什么 模式 与 前 级 相对 应 。 

在 每 一 层 中 ， 名 字 的 前 缀 将 文件 分 成 子 目录 ， 这 就 使 定义 名 字 和 底层 文件 系统 或 者 设备 之 间 的 关 
系 变 得 更 加 容易 。 男 外 ， 每 个 前 级 都 可 以 用 一 个 文字 串 来 表示 。 这 里 的 关键 点 是 : 

对 于 前 缓 的 严格 名 字 替 换 策 略 意味 着 使 用 文字 串 将 底层 文件 系统 分 成 不 同 层 次 的 名 字 空 
间 成 为 可 能 。 


21.8 名 字 空 间 的 实现 

下 面 的 一 个 具体 例子 将 会 清楚 地 解释 基于 句法 的 名 字 空 间 是 如 何 使 用 模式 - 替换 范式 的 ， 并 说 明 
名 字 空 间 是 如 何 隐 藏 子 系统 的 细节 。 在 这 个 例子 中 ， 模 式 包含 固定 长 度 的 字符 串 ， 只 有 前 级 被 匹配 。 
下 面 的 小 节 则 讨论 其 他 的 实现 和 普遍 应 用 。 

该 示例 中 要 实现 的 名 字 空 间 包含 了 一 个 叫做 NAMESPACE 的 伪 设 备 ， 程 序 使 用 该 伪 设 备 打 开 一 个 
已 命名 的 对 象 。 应 用 程序 调用 NAMESPACE 设备 上 的 打开 (open) ， 将 名 字 和 模式 作为 参数 传递 过 去 。 
NAMESPACE 伪 设 备 使 用 一 组 前 绥 模 式 将 现 有 的 名 字 转 换 为 新 的 名 字 ， 然 后 通过 调用 打开 命令 将 新 的 
名 字 传 递 给 合适 的 底层 设备 。 我 们 可 以 看 到 所 有 的 文件 和 设备 都 可 以 成 为 名 字 空 间 的 一 部 分 ， 这 就 意 
味 着 一 个 应 用 除了 需要 打开 NAMESPACE 伪 设 备 外 ， 不 需要 打开 其 他 任何 设备 。 

下 面 的 各 节 将 具体 介绍 名 字 空 间 软件 ， 从 介绍 基本 数据 格式 声明 开始 ， 以 介绍 NAMESPACE 伪 设 
备 的 定义 结束 。 在 数据 格式 声明 的 后 面 ， 介 绍 了 根据 前 级 模式 转换 名 字 的 两 个 函数 。 这 些 函 数 构成 该 
名 字 空 间 软件 最 重要 部 分 的 基础 : 这 些 函 数 实现 对 NAMESPACE 伪 设 备 的 打开 。 


21.9 名 字 空 间 的 数据 结构 和 常量 
文件 name. h 包含 了 Xinu 名 字 空间 中 使 用 的 数据 结构 的 声明 和 常量 的 定义 。 
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/* name.h */ 


/* Constants that define the namespace mapping table sizes */ 


#define NM_PRELEN 64 /* max size of a prefix string */ 
#define NM_REPLLEN 96 /* maximum size of a replacement*/ 
#define NM_MAXLEN 256 /* maximum size of a file name */ 
#define NNAMES 40 /* number of prefix definitions */ 


/* Definition of the name prefix table that defines all name mappings */ 


struct nmentry ( /* definition of prefix table a? 
char nprefix[NM PRELEN]; /* null-terminated prefix A 
char nreplace[NM REPLLEN]; /* null-terminated replacement  */ 
did32 ndevice; /* device descriptor for prefix */ 
}; 
extern struct nmentry nametab[]; /* table of name mappings */ 
extern  int32 nnames ; /* num. of entries allocated */ 


最 主要 的 数据 结构 是 数组 nametab, ， 最 大 能 够 容纳 NNAEMES 项 。 每 项 包含 一 个 前 缀 模式 字符 串 、 
一 个 替换 字符 串 和 一 个 设备 站。 外 部 的 整 型 变量 nnames 定义 了 nametab 数组 中 有 效 表 项 的 个 数 。 
21.10 ”增加 名 字 空 间 前 组 表 的 映射 


PR mount 用 来 增加 前 缀 表 的 映射 。 正 如 所 期 望 的 一 样 ，mount 有 3 SSW: 一 个 前 级 字符 串 、 一 
个 替换 字符 串 和 一 个 设备 一 。 相 应 的 代码 在 文件 mount. c 中 。 


/* mount.c - mount, namlen */ 


#include <xinu.h> 


/* me—————————————ÓÉÓÁÍ—— H————Ó—————Ó E 
* mount - add a prefix mapping to the name space 
ho = es ees Se necis s ca dni ong RM MS qus a Qu Ea e Qd UR QUE Gru ML d Gi i i de s Qs M E RL S m Gi da M ee i UE t 
k/ 
syscall mount ( 
char *prefix, /* prefix to add Ee 
char *replace, /* replacement string *j 
did32 device /* device ID to use */ 
) 
{ 
intmask mask; /* saved interrupt mask */ 
struct nmentry *namptr; /* pointer to unused table entry*/ 
int32 psiz, rsiz; /* sizes of prefix & replacement*/ 
int32 1; /* counter for copy loop #/ 
mask = disable(); 
psiz = namlen(prefix, NM_PRELEN); 


rsiz = namlen(replace, NM REPLLEN); 

if ((psiz -- SYSERR) || (rsiz -- SYSERR) || isbaddev(device)) ( 
restore (mask); 
return SYSERR; 

} 

if (nnames >= NNAMES) ( /* if table full return error */ 
restore (mask); 
return SYSERR; 
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/* Allocate a slot in the table */ 
namptr = &nametab[nnames]; /* next unused entry in table */ 


/* Copy prefix and replacement strings and record device ID */ 


for (i=0; i<psiz; i++) { /* copy prefix into table entry */ 
namptr->nprefix[i] = *prefix++; 

} 

for (i=0; i<rsiz; i++) { /* copy replacement into entry  */ 


namptr->nreplace[i] = *replace++; 


namptr->ndevice = device; /* record the device ID */ 
nnames++; /* increment number of names < 这 


restore (mask); 


return OK; 
H 
/* ceca MN EDI ipae e De RENO aac 
* namlen - compute the length of a string stopping at maxlen 
WU in as um eunt aui a Uns Co i elu CA EU IS MeL em cla I CL Ee iue Du Eee i to a See EE Er A ai 
+y 
int32 namlen( 
char *name, /* name to use xy 
int32 maxlen /* maximum length (including a */ 
f* NULL byte) T 
) 
{ 
int32 i; /* counter */ 
/* Search until a null terminator or length reaches max */ 
for (i=0; i < maxlen; i++) { 
if (*name++ == NULLCH) { 
return i*1; 
) 
} 
return SYSERR; 
} 
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如 果 任 何 一 个 参数 是 无 效 的 或 者 表 已 经 满 了 ， 则 mount 返回 SYSERR; 否则 ， 它 将 增加 nnames 的 
数量 ， 以 便 在 表 中 分 配 一 个 新 表 项 ， 并 将 相应 的 值 填 人 其 中 。 


21.11 使 用 前 缀 表 进 行 名 字 映 射 


一 旦 创建 了 前 缀 表 ， 就 可 以 进行 名 字 转 换 了 。 上 映射 包括 找到 一 个 前 绥 匹 配 并 将 合适 的 替换 字符 串 
{RA è PR nammap 负责 执行 转换 功能 。 文 件 nammap. e 包含 了 相应 的 代码 。 


/* nammap.c - nammap, namrepl, namcpy */ 


#include <xinu.h> 


status 
did32 


namcpy (char *, char *, int32); 
namrepl (char *, char[]); 


/* I A SRI I i i e min nno a 
* nammap - using namespace, map name to new name and new device 
en 
*j 
devcall nammap( 
char *name, /* a name to map */ 
char | newname[NM MAXLEN], /* buffer for mapped name s/f 
did32 namdev /* ID of the namespace device i J 
) 
{ 
did32 newdev; /* device descriptor to return */ 
char tmpname [NM MAXLEN]; /* temporary buffer for name «if 
int32 iter; /* number of iterations aa’ 
/* Place original name in temporary buffer and null terminate */ 
if (namcpy(tmpname, name, NM_MAXLEN) == SYSERR) { 
return SYSERR; 
} 
/* Repeatedly substitute the name prefix until a non-namespace */ 
/* device is reached or an iteration limit is exceeded La 
for (iter=0; iter<nnames ; iter++) { 
newdev = namrepl(tmpname, newname) ; 
if (mewdev != namdev) { 
namcpy(tmpname, newname, NM_MAXLEN) ; 
return newdev; /* either valid ID or SYSERR */ 
) 
} 
return SYSERR; 
} 
/* ——————————————————————————————— 
* namrepl - use the name table to perform prefix substitution 
#/ 
did32 namrepl ( 
char *name, /* original name "y 
char newname [NM MAXLEN] /* buffer for mapped name ef 
) 
{ 
int32 i; /* iterate through name table xy 
char *pptr; /* walks through a prefix Ef 
char *rptr; /* walks through a replacement  */ 
char *optr; /* walks through original name */ 
char *nptr; /* walks through new name Ey 
char olen; /* length of original name xy 
/* including the NULL byte */ 
int32 plen; /* length of a prefix string vy 
/* *not* including NULL byte +7 
int32 rlen; /* length of replacment string */ 
int32 remain; /* bytes in name beyond prefix */ 
struct nmentry *namptr; /* pointer to a table entry */ 


/* Search name table for first prefix that matches */ 
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for (i=0; i«nnames; i++) ( 
namptr = &nametab[il; 
optr = name; /* start at beginning of name *7 
pptr - namptr-»nprefix; /* start at beginning of prefix */ 
/* Compare prefix to string and count prefix size */ 


for (plen=0; *pptr != NULLCH ; plen++) { 
if (*pptr !- *optr) { 


break; 
} 
pptr++; 
optr++; 
} 
if (*pptr != NULLCH) { /* prefix does not match */ 
continue; 
} 


/* Found a match - check that replacement string plus ey 
/* bytes remaining at the end of the original name will */ 
/* fit into new name buffer. Ignore null on replacement*/ 
/* string, but keep null on remainder of name. */ 


olen = namlen(name ,NM_MAXLEN) ; 
rlen = namlen(namptr->nreplace,NM_MAXLEN) - 1; 
remain = olen - plen; 
if ( (rlen + remain) > NM_MAXLEN) { 
return (did32) SYSERR; 


/* Place replacement string followed by remainder of */ 
/* original name (and null) into the new name buffer */ 


nptr = newname; 

rptr = namptr->nreplace; 

for (; rlen>0 ; rlen--) { 
*nptr++ = *rptr++; 


for (; remain»0 ; remain--) { 
*nptr++ = *optr+t+; 


return namptr->ndevice; 


} 
return (did32)SYSERR; 
} 
/* ——————————————————————— MB 
* namcpy - copy a name from one buffer to another, checking length 
[ "———————————"————————————————————————————————— 
By 
status  namcpy( 
char *newname, /* buffer to hold copy */ 
char *oldname, /* buffer containing name my 
int32 buflen /* size of buffer for copy ial 
) 
{ 
char *nptr; /* point to new name *J 
char *optr; /* point to old name ed 
int32 cnt; /* count of characters copied x 
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nptr = newname; 
optr = oldname; 


for (cnt=0; cnt<buflen; cnt++) { 


if ( (*nptr++ = *optr++) == NULLCH) { 
return OK; 
} 
} 
return SYSERR; /* buffer filled before copy completed */ 


) 
nammap 最 有 趣 的 地 方 是 它 支持 多 重 映射 。 特 别 是， 因为 名 字 空 间 是 一 个 伪 设 备 ， 所 以 对 于 用 户 来 
说 ， 可 以 指定 一 个 映射 重新 映射 到 NAMESPACE 设备 。 比 如 ， 考 虑 下 面 两 个 在 nametab 中 的 项 : 
"/local/" = LFILESYS 
"LES: " "/local/" NAMESPACE 


第 一 个 项 说 明 ， 如 果 名 字 以 /local/ 开 头 ， 那 么 就 去 除 前 级 并 将 名 字 传 递 到 本 地 文件 系统 。 第 二 个 项 说 
HJ, LFS; 是 /local/ 的 缩写 。 也 就 是 说 ， 前 级 LFS: 被 /local/ 所 替换 ， 同时 将 结果 字符 串 传 递 回 
NAMESPACE 设备 以 进行 下 一 轮 的 映射 。 

当然 ， 递 归 映 射 可 能 会 有 和 危险。 考虑 如 果 用 户 将 下 面 的 内 容 添加 到 名 字 空 间 会 发 生 什么 : 

"Jz" "/x" NAMESPACE 

当 出 现 名 字 /xyz， 一 次 简单 的 操作 就 会 找到 前 缀 /x， 进 行 替换 ， 并 在 NAMESPACE 设备 上 调用 打开 
(open) 函数 ， 这 样 就 会 引起 递归 的 死 循 环 。 为 了 避免 这 个 问题 ， 通 过 NAMESPACE 进行 的 替换 迭代 限 
制 整个 迭代 次 数 。 特 别 地 ， 只 允许 nametab 中 的 每 一 个 前 缀 迭代 一 次 (也 就 是 ， 每 一 个 前 缀 只 能 被 蔡 
换 一 次 )。 当 然 ，nammap 也 限制 了 名 字 的 长 度 : 如 果 蔡 换 将 名 字 扩 展 到 超过 NM_MAXLEN 字符 串 的 长 
度 ，nammap 将 停止 并 返回 SYSERR, 

nammap 一 开始 将 原始 名 字 复 制 到 本 地 数组 tmpname 中 。 然 后 ， 它 进行 迭代 ， 直 到 名 字 被 映射 到 除 
了 NAMESPACE 以 外 的 一 个 设备 ,或 者 到 达 迭 代 的 限制 。 在 每 次 迭代 的 期 间 ，nammap 调用 函数 namre- 
pl 来 查看 目前 的 名 字 ， 并 形成 一 个 替换 。 

函数 namrepl 实现 了 一 个 基本 的 替换 策略 (replacement policy) 。 示 例 中 的 替换 策略 经 过 了 简化 : 
namrepl 线性 地 搜索 表 。 每 次 搜索 总 是 始 于 表 中 第 一 项 ,一旦 表 中 的 一 个 前 级 与 参数 name 表示 的 字符 
串 相 匹配 时 ， 搜 索 就 停止 。 一 旦 搜索 停止 ，nammap 将 原始 名 字 中 的 未 匹配 部 分 添加 到 替换 字符 串 后 
面 ， 从 而 形成 一 个 映射 名 字 ， 并 将 它 赋 给 参数 newname。 然 后 返回 这 个 表 项 的 设备 人 D。 后 面 的 一 节 将 
解释 这 个 设计 对 用 户 的 影响 。 


21.12 ”打开 命名 文件 

一 旦 nammap 可 用 ， 为 名 字 空 间 伪 设备 构造 上 半 部 的 打开 (open) 操作 将 变 得 极为 简单 。 打 开 操 
作 的 基本 目标 是 定义 一 个 名 字 空 间 伪 设备 ，NAMESPACE ， 使 得 打开 这 个 设备 的 操作 让 系统 打开 合适 的 
底层 设备 。 一 旦 名 字 被 映射 ， 并 且 新 的 设备 被 定义 ， 则 namopen 只 要 调用 打开 (open) 函数 即 可 。 这 
段 代码 包含 在 文件 namopen. c 中 。 


/* mamopen.c - namopen */ 


#include <xinu.h> 


/* X ———MAA——»—»—»———————»————————————————————————— 
*  namopen - open a file or device based on the name 
| MCA PROC CPP PPP SPUR RUN ERFORDERT ONORI PS DE TIE a D I RR RR V ES 
a 
devcall namopen ( 
struct dentry *devptr, /* entry in device switch table */ 
char *name, /* name to open ef 


char  *mode /* mode argument xj: 
) 


} 


char 
did32 
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newname [NM_MAXLEN] ; /* name with prefix replaced *7 
newdev; /* device ID after mapping */ 


/* Use namespace to map name to a new name and new descriptor */ 


newdev 


= nammap (name, newname, devptr->dvnum) ; 


if (newd == SYSERR) { 


} 


return SYSERR; 


/* Open underlying device and return status */ 


return 


open (newdev, newname, mode); 


21.13 ”名 字 空 间 初 始 化 
前 缀 表 如 何 初始 化 呢 ? 有 两 个 可 能 的 方法 : 一 是 要 求 用 户 填写 名 字 空 间 表 的 表 项 ， 二 是 为 这 个 表 提 
供 初始 化 的 项 。 因 为 名 字 空 间 已 经 被 设计 为 一 个 伪 设 备 ， 系 统 启动 时 调用 函数 init， 即 可 完成 初始 化 。 


决定 如 何 初 始 化 


前 绥 表 可 能 有 点 儿 困 难 。 因 此 ， 我 们 检查 初始 化 函数 看 它 如 何 构造 前 缀 表 ， 并 且 


将 实际 前 级 的 讨论 推迟 到 21. 14 节 。 文 件 naminit c 包含 naminit 函数 的 代码 。 


/* naminit.c - naminit */ 


#include <xinu.h> 


#ifndef RFILESYS 


#define 
#endif 


#1fndef 
#define 
#endif 


#ifndef 
#define 
#endif 


RFILESYS SYSERR 

FILESYS 

FILESYS SYSERR 

LFILESYS 

LFILESYS SYSERR 

nmentry nametab[NNAMES] ; /* table of name mappings Ky 

nnames; /* num. of entries allocated x7 
y M -Rc(—— ——— ——— ———— n NE STE 


xd 
status 


{ 


naminit (void) 


did32 
struct 
char 
status 


/* Set 


i; /* index into devtab */ 
dentry *devptr; /* ptr to device table entry si 
tmpstr[NM MAXLEN]; /* string to hold a name xf 
retval; /* return value *f 
SEDEF: /* ptr into tempstring */ 
*nptr; /* ptr to device name */ 
devprefix[] = "/dev/"; /* prefix to use for devices * y 
len; /* length of created name */ 
ch; /* storage for a character */ 


prefix table to empty */ 
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mnames = 0; 
for (i=0; i<NDEVS ; i++) { 


tptr tmpstr; 
nptr = devprefix; 


Li 


/* Copy prefix into tmpstr*/ 


len = 0; 

while ((*tptr++ = *nptr++) !- NULLCH) { 
len++; 

} 


tptr--; /* move pointer to position before NULLCH */ 
devptr = &devtab[i]; 
nptr = devptr->dvname;  /* move to device name */ 


/* Map device name to lower case and append */ 


while(++len < NM MAXLEN) ( 
ch = *nptr++; 
if ( (ch >= 'A') && (ch <= 'Z')) { 
ch += ‘tat = “Al; 
} 
if ( (*tptr++ = ch) == NULLCH) { 
break; 


if (len > NM_MAXLEN) { 
kprintf("namespace: device name %s too long\r\n", 
devptr->dvname) ; 
continue; 


retval = mount (tmpstr, NULLSTR, devptr-»dvnum); 
if (retval == SYSERR) { 
kprintf("namespace: cannot mount device %d\r\n", 
devptr->dvname) ; 
continue; 


/* AGA other prefixes (longest prefix first) */ 


mount ("/dev/null", es. CONSOLE) ; 
mount("/remote/", "remote:", RFILESYS); 
mount ("/local/", NULLSTR, LFILESYS); 
mount("/dev/", NULLSTR, SYSERR); 

mount("-/", NULLSTR, LFILESYS); 
mount("/", *root:", RFILESYS); 
mount ("", EM. LFILESYS); 

return OK; 


} 

这 里 请 忽略 指定 的 前 级 和 替换 名 字 ， 仅 关注 直接 的 初始 化 是 如 何 工作 的 。 在 将 有 效 表 项 的 数目 设 
置 为 0 之 后 ，naminit 调用 mount 向 前 缀 表 中 增加 表 项 ， 其 中 每 个 表 项 包含 一 个 前 缀 模式 、 替 换 字符 串 
和 设备 标识 符 。for 循环 遍历 设备 转换 表 。 对 每 个 设备 ， 它 创建 一 个 形式 为 /dev/xxx 的 名 字 ， 其 中 xxx 
是 映射 到 小 写字 母 的 设备 名 。 因 此 ， 它 为 /dev/console 创建 一 个 表 项 ， 将 其 映射 到 CONSOLE 设备 。 因 
此 ， 如 果 进 程 调用 : 
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d = open (NAMESPACE, "/dev/console", "rw") ; 
名 字 空 间 将 会 在 CONSOLE 设备 上 调用 open 函数 ， 并 返回 结果 。 


21.14 ”对 前 缀 表 中 的 项 进行 排序 

Xinu 名 字 替 换 策 略 会 影响 用 户 。 要 理解 如 何 影 响 用 户 ， 首 先 要 指出 的 是 namrepl 函数 使 用 顺序 查询 。 
因此 ， 用 户 加 载 名 字 的 方式 必须 使 顺序 查询 产生 期 望 的 结果 。 特 别 地 ,我们 的 实现 不 禁止 重 盖 的 前 级 ， 
当 出 现 重大 的 前 纵 时 也 不 会 对 用 户 发 出 警告 。 因 此 ， 如 果 重 全 的 前 级 出 现 了 ， 用 户 就 必须 确保 在 表 中 最 
长 前 缀 出 现在 较 短 前 绥 的 前 面 。 例 如 ， 如 果 表 中 包含 两 项 ， 如 表 21-1 所 示 ， 考 虑 会 发 生 什么 情况 。 











替换 设备 
"n CIFFER) LFILESYS 
"n (25275 B ) RFILESYS 








图 21-1 前 缀 表 中 的 两 项 ， 它 们 的 顺序 必须 交换 ， 否 者 第 二 项 永远 不 会 被 使 用 


第 一 项 映射 前 级 x 到 本 地 文件 系统 ， 第 二 项 映射 前 级 xyz 到 远程 文件 系统 。 不 幸 的 是 ， 因 为 
namrepl 顺 序 搜索 表 ， 所 以 任何 以 x 开头 的 文件 名 将 匹配 第 一 项 ， 并 被 映射 到 本 地 文件 系统 。 第 二 项 将 
永远 不 会 被 使 用 。 然 而 ， 如 果 交 换 这 两 项 的 位 置 ， 以 xyz 开头 的 文件 名 就 会 被 映射 到 远程 文件 系统 ， 
而 其 他 以 x 开 头 的 文件 名 被 映射 到 本 地 文件 系统 。 于 是 可 以 得 出 结论 : 

因为 程序 顺序 搜索 前 级 表 ， 并 且 不 检测 重合 的 前 组 ， 所 以 用 户 必须 按照 长 度 反 向 地 许 入 

前 组 ， 以 确保 系统 能 够 首先 匹配 最 长 的 前 缓 。 


21.15 选择 一 个 逻辑 名 字 空 间 

将 名 字 空 间 仅仅 看 做 一 个 用 来 缩写 长 名 字 的 机 制 的 想法 很 族人。 然而， 仅仅 专注 于 机 制 可 能 会 产 
生 误 导 。 选 择 有 意义 前 缀 名 的 关键 在 于 构建 一 个 文件 存放 的 层次 结构 。 事 实 上 ， 和 名字 空间 设计 定义 了 
层次 结构 的 组 织 方式 。 

我 们 认为 所 有 的 名 字 需 要 组 织 在 层次 结构 中 ， 而 不 是 将 名 字 空 间 仅 仅 看 做 缩写 名 字 的 机 

制 。 名 字 空 间 中 的 表 项 用 来 实现 需要 的 层次 。 

请 读者 花 一 些 时 间 想 象 一 个 系统 ， 它 能 够 获取 本 地 磁盘 和 远程 服务 器 的 文件 。 不 要 思考 如 何 缩写 
特定 的 文件 名 ， 而 要 思考 如 何 组 织 文 件 。 图 21-2 显示 了 三 种 可 能 的 结构 。 


A A JN /N 


a) 本 地 文件 和 远程 文件 在 同一 层 ”b) 远程 文件 在 本 地 文件 的 子 目录 中 c) 本 地 文件 作为 远程 文件 的 子 目录 
图 21-2 三 种 可 能 的 本 地 文件 和 远程 文件 的 层次 结构 

如 图 21-2 所 示 ， 本 地 文件 和 远程 文件 可 以 相同 地 存放 ， 但 是 在 不 同 的 层次 结构 中 ; 或 者 ， 本 地 文 
件 系统 可 以 形成 层次 的 主要 部 分 ， 远 程 文件 在 子 层 次 ; 或 者 远程 文件 构成 主 层次 ， 而 本 地 文件 作为 子 
层次 。 对 于 这 三 种 选择 ， 两 种 文件 系统 的 大 小 和 存 取 的 频率 可 能 有 助 于 决定 优先 采用 哪 种 结构 。 例 如 ， 
如 果 远 程 文 件 系统 有 数 千 个 文件 ， 而 本 地 文件 系统 仅 有 10 个 文件 ,那么 自然 想到 使 用 远程 文件 作为 主 
层次 ， 将 本 地 文件 移 到 子 层次 。 
21.16 ”默认 层次 和 空前 缀 

Xinu 名 字 空 间 的 软件 设计 可 以 容易 地 支持 图 21-2 中 的 任何 层次 。 特 别 地 ， 挂 载 (mount) RER 
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许 用 户 选择 一 个 子 系统 作为 默认 ， 系 统 将 根据 这 个 层次 来 组 织 剩余 文件 。 

一 个 子 系统 如 何 成 为 默认 ? 首先 ， 子 系统 的 前 缀 必须 能 够 匹配 所 有 不 能 被 其 他 表 项 匹配 的 名 字 。 
而 空前 级 将 为 示例 名 字 空 间 提 供 有 保证 的 匹配 。 其 次 ， 带 有 空前 级 的 默认 项 必须 在 所 有 其 他 前 级 被 检 
测 后 再 被 检查 。 因 为 nammap 顺序 搜索 前 级 表 ， 所 以 默认 项 必须 放 在 表 的 最 后 。 如 果 任 何其 他 项 匹配 ， 
那么 namrepl 就 按照 这 个 匹配 进行 替换 。 

请 再 次 查看 naminit， 看 看 本 地 文件 系统 如 何 成 为 默认 的 。 对 mount 的 最 终 调 用 将 向 默认 映射 中 插 
入 一 个 空前 级 。 因 此 ， 任 何不 匹配 其 他 前 级 的 名 字 将 适用 于 本 地 文件 系统 。 


21. 17 额外 的 对 象 操作 函数 

尽管 看 起 来 是 将 所 有 名 字 组 织 在 一 个 唯一 的 、 统 一 的 层次 结构 中 ,但 前 面 介绍 的 名 字 空 间 并 没有 
提供 需要 的 所 有 功能 。 为 了 理解 其 中 的 原因 ， 可 以 看 一 段 仅 处 理 打 开 的 已 命名 的 对 象 的 代码 。 事 实 上 
其 他 可 能 的 对 已 命名 对 象 的 操作 还 包括 : 

。 检测 对 象 的 存在 性 

© 改变 对 象 的 名 字 

。 删除 对 象 

检测 对 象 的 存在 性 通常， 软件 需要 检测 一 个 对 象 的 存在 性 ， 而 不 影响 对 象 。 看 起 来 下 面 的 代码 
可 以 用 来 检测 一 个 对 象 是 否 存在 。 

dev = open(NAMESPACE", "object", "r"); 


if (dev == SYSERR) { 
„Object does not exist 








) else { 
close (dev); 
Object exists 

} 

但 不 幸 的 是 ， 对 open 的 调用 会 产生 副作用 。 例 如 ， 打 开 一 个 网 络 接口 设备 可 能 引起 系统 声明 这 个 
接口 可 用 于 数据 包 传输 。 因 此 ， 打 开 和 关闭 设备 会 引起 数据 包 传输 ， 即 使 进程 已 经 明确 地 使 这 个 接口 
不 可 用 。 为 了 避免 副作用 ， 需 要 使 用 额外 的 功能 。 

改变 对 象 的 名 字 ”大 部 分 文件 系统 允许 用 户 重 命名 文件 。 然 而 ， 当 使 用 名 字 空 间 时 ， 这 将 出 现 两 
个 问题 。 第 一 ， 因 为 用 户 通过 名 字 空 间 查 看 所 有 的 文件 ， 所 以 对 重 命名 文件 的 要 求 是 含糊 不 清 的 : 应 
该 改变 底层 文件 的 名 字 ， 还 是 应 该 改变 名 字 空 间 中 的 映射 ? 尽管 系统 可 以 使 用 一 个 逃避 机 制 来 让 用 户 
区 别 抽象 名 字 和 底层 系统 使 用 的 名 字 ， 但 这 样 做 会 有 危险， 因为 下 层 名 字 的 改变 可 能 会 导致 文件 不 再 
能 够 通过 名 字 空 间 的 映射 。 第 二 ， 如 果 用 户 将 名 字 a 改变 为 B， 可 能 的 结果 是 字符 串 B 映射 到 一 个 本 
地 文件 系统 ，a 映射 到 一 个 远程 文件 系统 。 因 此 ， 尽 管用 户 看 到 的 是 一 个 统一 的 层次 ， 但 重 命名 操作 
可 能 不 被 允许 (或 者 仅 涉及 文件 复制 ) 。 

删除 对 和 象 ”上面 给 出 的 理由 同样 适用 于 对 象 删除 。 也 就 是 说 ， 因 为 用 户 通过 名 字 空 间 看 到 所 有 的 
名 字 ， 所 以 删除 对 象 的 要 求 必 须 通 过 名 字 空 间 对 名 字 进 行 映射 以 决定 合适 的 底层 文件 系统 。 

删除 对 象 、 重 命名 对 象 和 检测 对 象 的 存在 性 应 该 如 何 实 现 ? 有 三 种 可 能 的 方法 : 为 每 个 操作 创建 
单独 的 函数 、 扩 展 设备 转换 表 ， 或 者 为 函数 control 增加 额外 的 操作 。 第 一 种 方法 (单独 的 函数 )， 将 
名 字 作 为 参数 ， 使 用 名 字 空 间 来 将 名 字 映 射 到 底层 设备 ， 然 后 在 该 设备 上 调用 合适 的 操作 。 第 二 种 方 
法 扩展 设备 转换 表 来 增加 额外 的 高 层 函 数 ， 例 如 删除 、 重 命名 和 存在 性 检测 函数 。 也 就 是 说 ， 除 了 打 
开 (open), ìk (read)、 写 (write) 和 关闭 (close) 操作 外 ,增加 新 的 操作 来 实现 额外 的 功能 。 第 三 
种 方法 将 功能 增加 到 control 函数 中 。 例 如 可 以 指定 如 果子 系统 实现 对 象 删除 ， 那 么 实现 control 的 驱动 
函数 必须 响应 一 个 DELETE 请 求 。Xinu 使 用 第 一 种 和 第 三 种 方法 的 混合 。 本 章 练习 要 求 读者 考虑 扩展 
设备 转换 表 的 优 缺 点 。 


21.18 名 字 空间 方法 的 优点 和 限制 
句法 名 字 空 间 将 程序 与 底层 设备 和 文件 系统 隔离 开 ， 人 允许 对 命名 的 层次 结构 进行 设计 或 修改 ， 而 
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不 改变 底层 系统 。 为 了 显示 名 字 空 间 的 能 力 ， 考 虑 一 个 系统 ， 它 需要 在 本 地 磁盘 保存 临时 文件 ， 并 使 
用 前 缀 /tmpy 与 其 他 文件 区 分 开 来 。 将 临时 文件 移动 至 远程 文件 系统 包括 改变 指明 如 何 操作 前 缀 /tmp/ 
的 名 字 空 间 项 。 因 为 当 程序 引用 文件 时 ， 它 们 总 是 要 使 用 名 字 空间 ， 所 以 所 有 程序 不 必 改 变 源 代码 就 
可 以 继续 正确 地 操作 。 

名 字 空 间 允 许 重新 组 织 命名 层次 结构 ， 而 不 需要 重新 编译 使 用 它 的 程序 。 

仅 使 用 前 缀 模式 的 名 字 空 间 软 件 不 能 处 理 所 有 的 层次 结构 或 者 文件 映射 。 例 如 ， 在 某 些 UNIX 系 
统 中 ， 名 字 /dev/tty 指 的 是 进程 的 控制 终端 ， 服 务 器 不 需要 使 用 它 。 名 字 空 间 可 以 通过 将 前 缀 /dew'tty 
映射 到 设备 标识 符 SYSERR 来 阻止 意外 的 访问 。 不 幸 的 是 ， 这 样 的 映射 也 阻止 了 客户 访问 其 他 需要 共 
享 相同 前 缀 的 其 他 项 (例如,，/dev/tty1)。 

当 分 隔 符 出 现在 名 字 的 中 间 时 ,使 用 固定 字符 串 作 为 前 级 模式 也 可 以 防止 名 字 空 间 改变 分 隔 符 。 
例如 ， 假 设 一 台 计 算 机 有 两 个 底层 文件 系统 ， 一 个 遵循 UNIX 规范 ， 使 用 斜 杠 来 分 隔 路 径 的 各 部 分 ， 
而 另外 一 个 文件 系统 使 用 反 斜 杠 来 分 隔 各 部 分 。 因 为 名 字 空 间 仅仅 处 理 前 缀 模式， 所 以 它 就 不 能 将 斜 
杠 映射 为 反 斜 杠 ， 反 之 亦 然 ， 除 非 所 有 可 能 的 前 缀 都 存储 在 名 字 空 间 中 。 


21.19 ”广义 模式 

名 字 空 间 的 很 多 限制 可 以 通过 使 用 本 章 开头 描述 的 更 广义 的 模式 来 克服 。 例 如 ， 如 果 可 以 指定 一 
个 完全 字符 串 匹 配 ， 而 不 仅仅 是 前 缀 匹配， 那么 区 分 名 字 /dev/tty 和 /dev/ttyl 的 问题 就 可 以 解决 。 完 
全 匹配 和 前 缀 匹配 可 以 组 合 使 用 ; 可 以 给 mount 指定 一 个 额外 的 参数 ， 指 明 匹 配 的 类 型 和 可 以 存储 在 
表 项 中 的 值 。 

广义 模式 不 仅仅 允许 采用 固定 字符 串 来 解决 额外 问题 ， 还 可 以 在 模式 本 身 中 保存 所 有 的 匹配 信息 。 
例如 ， 假 设 下 列 字符 在 模式 中 有 如 图 21-3 所 示 的 特殊 意义 。9 





意义 
— Tr N 


匹配 字符 串 的 开头 
匹配 字符 串 的 结尾 
匹配 单个 字符 











模式 重复 0 到 多 次 
将 模式 中 的 下 一 个 字符 按照 字面 上 的 意义 进行 解释 





作为 固定 字符 串 自 匹 配 





图 21-3 广义 模式 的 一 个 示例 定义 


因此 ， 像 1 /dev/tty$ 这 样 的 模式 指定 字符 串 /dev/tty 的 全 匹配 ， 而 像 \$ 这 样 的 模式 匹配 可 以 嵌入 
在 字符 串 中 的 美元 符号 。 

为 了 使 广义 模式 匹配 在 名 字 空 间 更 有 用 ， 需 要 两 个 额外 的 规则 。 第 一 ， 假 定 使 用 最 左边 的 可 能 匹 
配 。 第 二 ， 假 定 在 所 有 最 左边 的 匹配 中 ,选择 最 长 的 匹配 。 本 章 练习 建议 如 何 使 用 这 些 广义 模式 来 匹 
配 那些 固定 前 级 所 不 能 处 理 的 名 字 。 


21.20 WA 


名 字 的 语法 已 经 获得 了 广泛 的 研究 和 讨论 。 从 前 ， 每 个 操作 系统 有 自己 的 命名 方案 ,涌现 出 各 种 
命名 方案 。 然 而 ， 在 层次 目录 系统 变 得 流行 后 ， 大 部 分 操作 系统 都 采用 了 层次 命名 方案 ,仅仅 在 一 些 





O 这 里 给 出 的 匹配 模式 对 应 于 UNIX sed 命令 使 用 的 模式 。 
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小 细节 上 有 所 不 同 ， 例 如 不 同 组 成 之 间 的 分 隔 是 采用 斜 杠 还 是 反 斜 杠 。 

正如 前 文 的 设计 所 指出 的 那样 ， 命 名 从 概念 上 与 底层 文件 和 IO 系统 分 隔 开 ， 并 人 允许 设计 者 将 一 
个 统一 的 名 字 空 间 加 到 所 有 的 底层 设备 上 。 然 而 ， 名 法 方法 有 优点 也 有 缺点。 主要 的 问题 出 在 语义 上 : 
尽管 它 提供 一 致 的 外 表 ， 但 名 字 空间 引入 了 模糊 和 混淆 的 语义 。 例 如 ， 如 果 一 个 对 象 被 重 命名 ， 那 么 
应 该 修改 名 字 空 间 还 是 改变 底层 对 象 的 名 字 ? 如 果 名 字 空 间 将 两 个 前 级 映射 到 同样 的 底层 文件 系统 ， 
那么 使 用 不 同 前 缀 的 应 用 程序 可 能 因为 疏漏 而 访问 了 相同 的 对 象 。 如 果 将 两 个 名 字 上 映射 到 不 同 的 底层 
文件 系统 ， 那 么 涉及 名 字 的 操作 〈 例 如 move 操作 ) 可 能 不 会 像 预 期 那样 地 工作 。 即 使 像 delete 这 样 的 
操作 也 可 能 有 预料 之 外 的 语义 〈 例 如 ， 删 除 一 个 本 地 对 象 可 能 把 它 移 动 到 回收 站 ， 而 删除 一 个 远程 对 
象 则 会 永远 移 除 这 个 对 象 ) 。 


21.21 总 结 


处 理 文件 名 是 困难 的 ， 尤 其 是 当 操 作 系统 支持 多 种 底层 命名 方案 时 。 解 决 命名 问题 的 一 个 方法 是 
在 应 用 程序 和 底层 文件 系统 之 间 增 加 一 层 名 字 空 间 软 件 。 名 字 空 间 本 身 不 实现 文件 本 身 ， 而 仅仅 把 名 
字 当 做 字符 串 ， 根 据 映 射 表 中 的 信息 ， 将 名 字 上 映射 为 适合 底层 系统 的 形式 。 

本 章 查 看 了 一 个 句法 名 字 空 间 的 实现 ， 它 使 用 模式 蔡 换 方案 ， 其 中 模式 是 表示 名 字 前 级 的 固定 字 
符 串 。 这 个 软件 包括 函数 mount 和 unmountS 来 处 理 映射 表 ， 函 数 nammap 将 名 字 映 射 为 目标 形式 。 当 
打开 一 个 文件 时 ,我们 的 示例 名 字 空 间 包 含 一 个 由 用 户 指 定 的 NAMESPACE 伪 设 备 。NAMESPACE {4 
设备 映射 指定 的 文件 名 ,然后 打开 指定 的 文件 。 

名 字 空 间 软 件 是 优雅 是 强 大 的 。 只 需要 几 个 函数 和 简化 的 前 缀 匹配 概念 就 可 以 容纳 很 多 命名 方案 。 
特别 地 ， 它 适应 于 远程 文件 系统 、 本 地 文件 系统 和 一 组 设备 。 然 而 ， 简 化 版 本 不 能 处 理 所 有 可 能 的 映 
射 。 为 了 提供 更 复杂 的 命名 系统 ， 模 式 的 概念 必须 广义 化 。 一 个 可 能 的 广义 化 是 给 模式 中 的 某 些 字符 
赋予 特殊 的 意义 。 


练习 
21.1 用 户 应 该 同时 拥有 对 nammap 和 namrepl 的 访问 权限 吗 ? 为什么? 





21.2 修改 mount 使 它 拒绝 设置 可 能 引起 无 限 循环 的 前 缀 替换 对 吗 ? 为 什么 ? 

21.3 可 能 引起 nammap 超过 最 大 字符 串 长 度 的 前 织 蔡 换 对 的 最 小 数目 是 多 少 ? 

21.4 用 一 个 包含 两 个 处 理 调用 的 语句 替换 namopen 函数 的 主体 ， 使 namopen 的 代码 量 最 小 。 

21.5 为 NAMESPACE 伪 设 备 实现 一 个 上 半 部 分 control 函数 ， 并 使 nammap 成 为 一 个 控制 函数 。 

21.6 实现 广义 化 的 模式 匹配 。 参 考 UNIX sed 命令 ,设计 额外 的 方法 来 定义 模式 匹配 字符 。 

21.7 建立 一 个 既 有 前 缀 匹配 又 有 全 字符 串 匹配 的 名 字 空 间 。 

21.8 假设 一 个 名 字 空 间 ， 它 使 用 固定 字符 串 模式 ， 除 了 目前 的 前 缀 匹配 外 ， 也 允许 全 字符 串 匹 配 。 有 没 


有 这 种 情况 存在 ， 拥 有 一 个 与 前 缀 模式 相同 的 全 字符 串 模式 是 有 意义 的 ? 解释 原因 。 
21.9 除了 重 命名 、 删 除 和 存在 性 检测 外 ， 还 需要 哪些 文件 操作 原 语 ? 





日 ”函数 unmount 从 名 字 空 间 移 除 一 个 前 级 ， 本 章 没 有 说 明 函 数 unmoutn。 
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系统 初始 化 





只 有 避免 事情 的 开端 ， 才 能 逃避 事情 的 结局 。 
—— Cyril Connolly 


22.1 引言 

初始 化 是 设计 过 程 的 最 后 一 环 。 设 计 人 员 总 是 从 运行 状态 的 视角 来 进行 系统 的 设计 工作 ， 并 将 如 
何 启动 的 设计 放 在 后 面 进行 。 过 早 地 考虑 系统 初始 化 与 过 早 地 考虑 系统 优化 一 样 ， 都 有 一 些 不 良 影响 : 
这 往往 会 对 设计 施加 不 必要 的 限制 ， 并 且 会 将 设计 者 的 注意 力 从 重要 问题 转移 到 一 些 细 校 末节 的 问 
题 上 。 

本 章 介绍 初始 化 系统 所 需要 的 步骤 ， 并 描述 初始 化 代码 如 何 将 顺序 运行 的 程序 转换 为 支持 并 发 处 
理 。 我 们 将 看 到 其 中 并 没有 特殊 硬件 的 参与 ， 并 发 只 是 操作 系统 创建 的 一 种 抽象 。 


22.2 引导 程序 : 从 头 开 始 

初始 化 的 讨论 从 系统 终止 开始 。 每 个 使 用 过 计算 机 的 人 都 知道 ， 软 件 或 硬件 上 的 错误 都 会 造成 灾 
难 性 的 失效 ， 俗 称 为 “死机 ” (crashes) 。 当 计算 机 硬件 因为 错误 的 代码 和 数据 进行 非法 操作 的 时 候 ， 
死机 就 会 发 生 。 当 死机 发 生 时 ,所 有 内 存 中 的 数据 将 丢失 ， 操 作 系 统 必 须 重启 ， 这 通常 会 花费 相当 多 
的 时 间 。 

怎么 才能 让 一 台 没有 操作 系统 代码 的 计算 机 启动 并 开始 运行 呢 ? 答案 是 不 行 的 。 代 码 是 计算 机 局 
动 的 必要 条 件 。 在 老式 计算 机 中 ， 重 启 是 一 个 折磨 人 的 过 程 ， 需 要 操作 员 通 过 面板 上 的 开关 输入 初始 
化 程序 。 后 来 开关 换 成 了 键盘 ， 然 后 是 磁带 、 磁 盘 这 些 VO 设备 ， 最 后 是 现在 的 只 读 内 存 (ROM), 

有 些 岩 入 式 设备 将 整个 操作 系统 而 不 仅仅 是 初始 化 代码 存储 在 ROM 中 ， 这 就 意味 着 这 些 设备 可 以 
在 通电 之 后 立即 开始 工作 (更 换 了 电池 或 者 打开 电源 之 后 )。 然 而 ， 大 部 分 的 计算 机 需要 多 个 步骤 来 
启动 。 通 电 之 后 ,硬件 运行 存储 在 ROM 中 的 初始 化 启动 程序 。 虽 然 可 能 包括 调试 硬件 的 机 制 ， 但 初始 
化 启动 程序 通常 还 是 很 小 的 一 一 其 主要 功能 是 装载 和 运行 大 型 程序 。 在 标准 的 个 人 计算 机 中 ， 启 动 程 
序 初始 化 设备 (如 显示 器 、 键 盘 、 磁 盘 等 )， 将 操作 系统 映像 复制 到 内 存 中 ， 然 后 跳 转 到 操作 系统 的 
Hs 

将 计算 机 系统 链接 到 网 络 可 能 还 需要 其 他 的 步 又 ,初始 化 启动 程序 可 能 会 加 载 一 个 中 间 程 序 来 初 
始 化 网 络 接口 ， 然 后 通过 网 络 从 远程 服务 器 下 载 操 作 系 统 映像 。 

装载 更 大 程序 的 顺序 程序 通常 被 称 为 引导 程序 ， 而 整个 系统 称 为 引导 系统 2 。 更 传统 的 名 字 为 初 
始 化 程序 装载 (IPL) 或 者 冷 启动 (cold start), 


22.3 操作 系统 初始 化 


当然 ， 当 CPU 开始 执行 操作 系统 时 ， 初 始 化 的 工作 并 没有 结束 。 操 作 系统 还 必须 完 以 下 的 任务 : 
。 初始 化 内 存 管理 硬件 和 空闲 内 存 列表 。 

。 初始 化 各 个 操作 系统 模块 。 

。 装载 (如果 没有 ) 并 初始 化 设备 驱动 程序 。 

e 启动 (REEE) VOU. 

。 从 顺序 执行 转换 成 并 行 执行 。 








© bootstrap 一 词 来 源 于 短语 “pulling one’ s self up by one’ s bootstraps”( 通 过 提 靳 子 把 人 提起 来 )， 这 个 短语 描述 的 
是 一 个 不 可 能 的 任务 。 
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e 创建 一 个 空 进程 。 

。 创建 一 个 执行 用 户 代码 的 进程 (如 桌面 )。 

基础 初始 化 结束 之 后 ， 最 重要 的 步骤 是 : 操作 系统 必须 将 自己 从 一 个 顺序 执行 的 程序 转变 为 一 个 
支持 并 行 操作 的 程序 。 在 22.4 节 中 ， 我 们 将 了 解 E2100L 启动 的 情况 ， 理 解 Xinu 是 如 何 装 载 到 硬件 上 
的 ， 回 顾 Xinu 启动 之 后 依次 执行 的 步骤 ， 以 及 转换 是 如 何 发 生 的 。 


22.4 ”在 E2100L 上 启动 一 个 可 选 的 映像 

E2100L 作为 无 线路 由 器 使 用 的 过 程 在 前 面 的 章节 中 已 经 描述 过 了 。 在 通电 之 后 ， 路 由 器 执行 存储 
在 ROM 中 的 初始 化 程序 。 在 有 了 初始 化 的 设备 后 ， 启 动 程序 运行 嵌入 式 Linux 系统 的 一 个 版 本 (Linux 
代码 也 存储 在 ROM 中 ) 。 启 动 之 后 ，Linux 运行 将 系统 转换 为 无 线路 由 器 的 应 用 程序 。 例 如 ， 一 个 应 用 
程序 通过 IP, UDP 或 者 DHCP 等 标准 网 络 协议 与 网 络 服务 提供 商 (ISP). 协商 网 络 连接 ， 另 一 个 应 用 
程序 接收 通过 无 线 或 者 有 线 网 络 传 来 的 本 地 计算 机 的 路 由 请 求 。 一 旦 Linux 开始 运行 ， 所 有 的 输入 和 
输出 都 由 内 置 的 Linux 进程 控制 ， 该 设备 只 能 作为 路 由 器 使 用 。 没 有 任何 办 法 替换 或 者 修改 软件 。 

如 果 E2100L 用 于 运行 内 置 的 操作 系统 和 应 用 程序 ， 那 它 怎么 才能 启动 Xinu WE? 幸运 的 是 , 设计 
者 提供 了 中 断 初始 启动 流程 并 在 Linux 启动 前 获得 控制 权限 的 办 法 。 用 户 在 启动 过 程 中 键入 特定 字符 ， 


可 以 使 初始 化 启动 程序 在 载 人 Linux 之 前 停止 ， 并 且 开 始 从 控制 台 接受 命令 。 系 统 会 显示 如 下 提示 : 
ar7100> 


然后 等 待 用 户 输入 指令 。 在 指令 执行 完 后 ， 系 统 又 会 继续 出 现 提示 并 等 待 下 一 条 指令 。 

启动 程序 提供 了 很 多 下 载 映 像 的 命令 。 例 如 ，loadb 命令 可 以 用 来 使 用 kermit 协议 从 控制 台 串 口 线 
上 下 载 二 进 制 映像 。 而 且 ，E2100L 还 支持 boop 命令 ， 它 能 通过 BOOTP AI TFTP 协议 从 网 络 中 下 载 映 
像 。bootp 命令 接受 一 个 参数 来 指定 映像 的 具体 位 置 。Xinu 系统 将 通过 如 下 命令 下 载 到 位 于 0x81000000 
的 内 核 空间 中 : 





bootp 0x81000000 

对 E2100L 命令 发 送 一 个 BOOTP 请 求 数据 包 。 网 络 中 必须 运行 一 个 已 配置 的 BOOTP 服务 进程 用 于 响应 
这 些 请 求 。 在 响应 的 数据 中 ， 必 须 包括 下 载 文件 名 和 存储 这 个 文件 的 服务 器 地 址 。E2100L 发 送 一 个 TFTP 请 
求 数据 包 序列 来 获取 文件 。 网 络 中 必须 也 运行 一 个 已 配置 的 TFTP 服务 进程 来 响应 每 个 请 求 包 。 

一 旦 将 文件 下 载 到 了 内 存 中 ， 启 动 程序 在 命令 行 上 再 次 发 出 提示 ， 并 等 待 用户 输 入 命令 。 如 果 用 
户 输入 命令 : 

bootm 
启动 程序 就 跳 转 到 地 址 为 0x81000000 的 位 置 ( 即 开始 运行 下 载 到 内 存 中 的 Xinu 代码 ) 。 


22.5 Xinu 初始 化 


ink C 语言 的 运行 时 环境 已 经 建立 ， 在 完成 了 操作 系统 各 模块 的 初始 化 并 启动 了 系统 中 断 之 后 ， 
Xinu 才能 正式 成 为 操作 系统 。E2100L 上 的 初始 化 程序 只 进行 了 低级 别 的 硬件 初始 化 ， 如 系统 总 线 的 初 
始 化 。 启 动 程序 还 需要 对 控制 台 串 行 设 备 进行 初始 化 〈 如 设置 波 特 率 ) ， 使 Xinu 代码 可 以 通过 控制 台 
线 端 发 送 与 接收 字符 。 

尽管 在 Xin 引导 之 前 某 些 低级 别 的 初始 化 工作 已 经 完成 ， 但 仍然 需要 汇编 语言 函数 来 执行 其 他 相 
关 的 初始 化 任务 。 在 我 们 的 代码 中 ， 执 行 从 标签 _start 开始 ， 代 码 可 以 在 start. S 中 找到 。 


/* start.S start, memzero */ 


f eee e de ek vedete te de Me Hee RE ede Ok KE RIE ER EER ER KERR ERE AREER Ree Ree ARM oe A 
/* */ 
[* External symbol start ( start in assembly language) gives the ar 
/* location where execution begins after the bootstrap loader has #7 
/* placed a Xinu image in memory and is ready to execute the image. ef 
/* wy 
/* After initializing the hardware and establishing a run-time S 
/* environment suitable for C (including a valid stack pointer), the */ 


/* code jumps to the C function nulluser. ef 


$223 系统 初始 化 


[RR AA e e EEE E E EEE ek kk kk ek kk I kk RTI FOI IO AAA AAA AAA ee eek / 


#include <interrupt.h> 
#include <mips.h> 


#define NULLSTK 8192 /* Safe size for NULLSTK */ 


.extern flash size 


text 
.align 4 
.globl _minheap 
.globl start 
/* ITINERE EID e E E E ns a ee ee 
* 
* start - set up interrupts, initialize the stack pointer, clear the 
* null process stack, zero the BSS (uninitialized data) 
* segment, and invoke nulluser 
| ———————————————————————————————————————— 
^l 
.ent start 
_start: 


/* Pick up flash size from a3 (where the boot loader leaves it) */ 


sw a3, flash_size 


/* Clear Xinu-defined trap and interrupt vectors */ 


la a0, IRQ ADDR 

la al, IRQVEC END 

jal memzero 

/* Copy low-level interrupt dispatcher to reserved location. */ 
la a0, IRQ ADDR /* Reserved vector location Lx d 
la al, intdispatch /* Start of dispatch code Ey 
lw v0, O(al) 

sw v0, O(a0) /* Store jump opcode */ 


/* Clear interrupt related registers in the coprocessor */ 


mtc0 zero, CPÜ STATUS /* Clear interrupt masks */ 
mtc0 zero, CPO_CAUSE /* Clear interrupt cause reg. *7 


/* Clear and invalidate the L1 instruction and data caches */ 


jal flushcache 


/* Set up Stack segment (see function summary) */ 


T. s0, NULLSTK /* Stack is NULLSTK bytes uti 
la a0, end 
addu S0, s0, a0 /* Top of stack = _end+NULLSTK  */ 


/* Word align the top of the stack */ 
subu S1, s0, 1 

srl S1, 4 

sll S1, 4 
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/* Initialize the stack and frame pointers */ 


move sp, sl 
move fp, sl 


/* Zero NULLSTK space below new stack pointer */ 


move al, s0 /* note; a0 still points to end */ 
jal memzero 


/* Clear the BSS segment */ 


la a0, _bss 
la al, _end 
jal memzero 


/* Store bottom of the heap */ 


la t0, minheap 

SW s0, 0(t0) 

j nulluser /* jump to the null process code */ 
.end _start 


* memzero - clear a specified area of memory 


» args are: starting address and ending address 
[o RE E EE EET IE EIE Eg EE E ERR ERE ERE EE 
af 
.ent memzero 
memzero: 
SW zero, 0(a0) 
addiu a0, a0, 4 
blt a0, al, memzero 
JE ra 
. end memzero 


22.6 系统 启动 

当 处 理 器 跳 转 到 C 语言 函数 nulluser 之 后 ， 运 行 的 是 程序 而 不 是 操作 系统 。 该 程序 初始 化 所 有 重 
要 的 操作 系统 数据 结构 、 设 备 、 信 号 量 和 进程 。 读 者 可 以 在 initialize. c 中 找到 相应 的 代码 。 所 有 的 精 
华 都 在 这 里 ， 前 文 所 提 到 的 从 程序 到 系统 的 重大 转变 也 发 生 在 这 里 。 


/* initialize.c - nulluser, sysinit */ 
/* Handle system initialization and become the null process */ 


#include <xinu.h> 
#include <string.h> 


extern void _start (void); /* start of Xinu code */ 
extern void *_end; /* end of Xinu code */ 


/* Function prototypes */ 


extern void main(void); /* main is the first process created */ 
extern void xdone(void); /* system "shutdown" procedure * Jj 
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static void sysinit (void); /* initializes system structures xj 


/* Declarations of major kernel variables */ 


struct procent proctab[NPROC]; /* Process table ag A 
struct sentry  semtab[NSEM]; /* Semaphore table */ 
struct membik memlist; /* List of free memory blocks my 


/* Active system status */ 


int prcount ; /* Total number of live processes a! 1 
pid32 currpid; /* ID of currently executing process rd 


/* Memory bounds set by startup.S */ 


void *minheap; /* start of heap mf 
void *maxheap ; /* highest valid memory address a7 
/* a a pl a eA gg A cr a i a a a an a E OS mi ida i 


* nulluser - initialize the system and become the null process 


* Note: execution begins here after the C run-time environment has been 


* established. Interrupts are initially DISABLED, and must eventually 
* be enabled explicitly. The code turns itself into the null process 

* after initialization. Because it must always remain ready to execute, 
* the null process cannot execute code that might cause it to be 

* suspended, wait for a semaphore, put to sleep, or exit. In 

* particular, the code must not perform I/O except for polled versions 
* such as kprintf. 


void nulluser (void) 
kprintf("\n\r%s\n\n\r", VERSION); 
sysinit(); 
/* Output Xinu memory layout */ 


kprintf("$10d bytes physical memory. V rWMn", 
(uint32)maxheap - (uint32)addressp2k(0)); 
kprintf(" [0x%08X to 0x%08X]\r\n", 
(uint32)addressp2k(0), (uint32)maxheap - 1); 
kprintf("$10d bytes reserved system area. \r\n", 
(uint32)_start - (uint32)addressp2k(0)); 
kprintf(" [0x$08X to 0x%08X]\r\n", 
(uint32)addressp2k(0), (uint32) start - 1); 
kprintf("$10d bytes Xinu code. \r\n", 
(uint32)& end - (uint32) start); 
kprintf(" [0x$08X to 0x%08X]\r\n", 
(uint32) start, (uint32)& end - 1); 
kprintf("$10d bytes stack space. rn", 
(uint32)minheap - (uint32)& end); 
kprintf(" [0x%08X to 0x%08X)\r\n", 
(uint32)& end, (uint32)minheap - 1); 
kprintf("%10d bytes heap space.\r\n", 
(uint32)maxheap - (uint32)minheap); 
kprintf(" [0x$08X to 0x%08X]\r\n\r\n", 
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(uint32)minheap, (uint32)maxheap - 1); 
/* Enable interrupts */ 
enable(); 
/* Create a process to execute function main() */ 
resume (create 


((void *)main, INITSTK, INITPRIO, "Main process", 0, NULL)); 


/* Become the Null process (i.e., guarantee that the CPU has * 
/* something to run when no other process is ready to execute) */ 


while (TRUE) ( 
; /* do nothing */ 


*/ 

static void sysinit (void) 

{ 
int32 ï; 
struct procent *prptr; /* ptr to process table entry ul 
struct dentry  *devptr; /* ptr to device table entry */ 
struct sentry *semptr; /* ptr to semaphore table entry */ 
struct memblk  *memptr; /* ptr to memory block */ 


/* Initialize system variables */ 

/* Count the Null process as the first process in the system */ 
prcount = 1; 

/* Scheduling is not currently blocked */ 

Defer.ndefers = 0; 

/* Initialize the free memory list */ 

maxheap = (void *)addressp2k (MAXADDR) ; 

memlist.mnext = (struct memblk *)minheap; 

/* Overlay memblk structure on free memory and set fields */ 
memptr = (struct memblk *)minheap; 

memptr->mnext = NULL; 

memptr->mlength = memlist.mlength = (uint32) (maxheap - minheap); 
/* Initialize process table entries free */ 


for (i = 0; i < NPROC; i++) { 
prptr = &proctab[i]; 


) 


prptr-»prstate - PR FREE; 
prptr-»prname[0] - NULLCH; 
prptr-»prstkbase - NULL; 
prptr-»prprio - 0; 

) 


/* Initialize the Null process entry */ 


prptr - &proctab[NULLPROC]; 
prptr-»prstate - PR CURR; 
prptr-»prprio = 0; 
strncpy(prptr-»prname, "prnull", 7); 
prptr-»prstkbase - minheap; 
prptr-»prstklen - NULLSTK; 
prptr-»prstkptr - 0; 

currpid - NULLPROC; 


/* Initialize semaphores */ 

for (i = 0; i < NSEM; i++) { 
semptr = &semtab[i]; 
semptr->sstate = S_FREE; 
semptr->scount = 
semptr->squeue = newqueue() ; 

} 

/* Initialize buffer pools */ 

bufinit(); 

/* Create a ready list for processes */ 

readylist - newqueue(); 


/* Initialize real time clock */ 


clkinit(); 
/* Initialize non-volative RAM storage */ 


nvramInit(); 


for (i = 0; i < NDEVS; i++) ( 
if (! isbaddev(i)) ( 
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devptr = (struct dentry *) &devtab[i]; 


(devptr->dvinit) (devptr); 


} 


return; 
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nulluser 函数 本 身 相 对 易 懂 ， 它 调用 sysinit 来 初始 化 操作 系统 数据 结构 。 当 sysinit 返回 时 ， 运 行程 
序 变 为 空 进程 (进程 0), ， 但 中 断 仍然 是 禁止 的 ， 也 没有 其 他 进程 存在 。 在 输出 了 一 些 简 介 信 息 后 ， 


nulluser 开启 中 断 ， 并 调用 create 启动 进程 来 执行 用 户 的 主 程序 。 


由 于 执行 nulluser 的 程序 已 经 成 为 了 空 进程 ， 所 以 它 本 身 不 能 退出 、 睡 眠 、 等 待 信号 量 或 者 自行 暂 
停 。 幸 运 的 是 ， 初 始 化 函数 不 会 对 调用 者 进行 改变 当前 状态 或 准备 状态 的 操作 。 如 果 需 要 执行 这 种 操 
作 ，sysinit 会 创建 另 一 个 进程 来 完成 这 种 操作 。 当 初始 化 完成 并 成 功 创建 了 一 个 用 于 执行 用 户主 程序 
的 进程 后 ，0 号 进程 进入 了 一 个 无 限 循 环 ， 当 没有 用 户 进 程 处 于 准备 并 且 可 运行 的 状态 的 时 候 ，re- 
sched 进程 会 安排 0 号 进程 运行 。 
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22.7 ”从 程序 转化 为 进程 

函数 sysinit 负责 系统 初始 化 工作 。 它 初始 化 系统 数据 结构 ， 如 信号 量 表 、 进 程 表 和 空闲 内 存 链 表 。 
它 还 调用 clkinit 以 初始 化 实时 时 钟 。 最 后 ，sysinit 迭代 遍历 所 有 已 经 配置 的 设备 ， 并 调用 每 个 设备 的 
初始 化 函数 。 为 了 实现 这 个 目的 ， 它 从 设备 转换 表 项 中 提取 dvinit 字段 ， 将 该 字段 的 值 作为 地 址 ， 调 
用 位 于 该 地 址 上 的 函数 。 

初始 化 代码 中 最 有 趣 的 部 分 出 现在 sysinit 中 间 的 位 置 ， 此 段 代码 用 于 在 初始 化 时 填写 0 号 进程 的 
进程 表 项 。 进 程 表 的 许多 字段 还 没有 初始 化 ， 如 进程 名 字段 一 一 该 字段 的 初始 化 仅仅 是 为 了 方便 调试 。 
初始 化 空 进程 时 有 两 行 关键 代码 : 把 当前 进程 DD 变量 currpid WE EZ ERR ID; 把 PR_CURR 赋值 给 
进程 表 中 的 进程 状态 字段 。 只 有 在 为 currpid 和 进程 表 状 态 字 段 赋 值 以 后 ， 系 统 才能 进行 进程 调度 。 一 
旦 它们 被 赋值 ， 初 始 化 程序 就 成 为 了 一 个 正在 运行 的 进程 ，resched 就 能 够 把 它 识 别 为 ID 为 0 的 进程 。 

总 结 以 上 内 容 : 

HK sysinit 在 进程 表 中 填写 进程 0 的 表 项 之 后 ， 就 把 变量 currpid 设置 为 0， 于 是 就 转化 

为 一 个 进程 。 

在 完成 空 进程 的 创建 之 后 ，sysinit 会 对 系统 中 剩余 的 其 他 进程 进行 初始 化 。 这 样 在 nulluser 函数 开 
始 进程 执行 用 户主 程序 的 时 候 ， 所 有 服务 都 是 可 用 的 。 


22.8 观点 


操作 系统 设计 的 精妙 之 处 就 在 于 为 底层 的 硬件 创造 了 新 的 抽象 。 对 于 系统 初始 化 来 说 ， 它 呈现 了 
程序 到 进程 转化 这 一 概念 ， 这 一 概念 远 比 它 的 实现 细节 更 重要 : 处 理 器 从 “ 取 指 - 执行 ”为 周期 的 串 
行 执行 指令 开始 ， 初 始 化 代码 将 自身 转化 为 一 个 并 行 处 理 系统 。 这 里 的 关键 之 处 在 于 初始 化 代码 并 没 
有 创建 一 个 独立 的 、 并 发 系统 ， 然 后 跳 转 到 新 的 系统 。 抽 象 建立 的 前 后 不 存在 真正 的 跨越 ， 原 来 的 串 
行 执行 程序 也 并 没有 被 抛弃 。 相 反 ， 运 行 中 的 串 行 系统 声明 自己 为 一 个 进程 ， 填 充 进程 需要 的 系统 数 
据 结构 ， 最 后 允许 其 他 进程 执行 。 与 此 同时 ， 处 理 器 仍然 继续 着 “ 取 指 - 执行” 周期， 而 新 的 抽象 可 
以 在 没有 任何 干扰 的 情况 下 出 现 。 


22.9 总 结 


初始 化 是 系统 设计 的 最 后 一 步 ， 一 定 不 能 为 简化 初始 化 过 程 而 更 改 系统 的 设计 。 尽 管 初始 化 过 程 
涉及 诸多 细节 ， 但 从 概念 上 看 ， 最 有 趣 的 部 分 是 将 串 行程 序 转化 为 支持 并 发 处 理 的 系统 。 为 了 把 自己 
设置 成 空 进程 ， 初 始 化 程序 填写 进程 表 中 进程 0 的 表 项 ， 并 将 currpid 设置 为 0。 


练习 

22.1 如 果 你 正在 设计 一 个 引导 加 载 程 序 ， 你 会 添加 哪些 额外 的 功能 ?为 什么 ? 

22.2 进程 表 、 信 号 量 表 、 内 存 空 闪 链表、 设备 和 就 绪 表 的 初始 化 顺序 是 否 重要 ? 请 解释 。 

22.3 在 许多 系统 中 ， 可 以 实现 sizmem 函数 以 找到 最 高 有 效 内 存 地 址 ， 方 法 是 不 断 探查 内 存 直 到 有 异常 发 
生 。 请 问 该 函数 能 否 在 E2100L 上 实现 ? 为 什么 ? 

22.4 根据 本 章 所 列 出 的 函数 ， 请 解释 如 果 在 调用 sysinit 之 前 ，nulluser 就 允许 中 断 ， 会 有 哪些 错误 产生 ? 

22.5 如果 网 络 代 码 、 远 程 磁盘 驱动 和 远程 文件 系统 驱动 各 自 创 建 了 一 个 进程 ， 请 问 这 些 进程 是 否 应 该 在 
sysinit 中 创建 ?为 什么 ? 

22.6 大 多 数 操作 系统 会 为 网 络 代码 的 运行 做 准备 ， 并 在 任何 用 户 进程 开始 之 前 就 获取 IP 地 址 。 请 设计 一 
种 方法 ,使 Xinu 可 以 创建 网 络 进程 ， 并 等 待 网 络 进程 获取 IP 地 址 ， 然 后 创建 一 个 进程 运行 主 程序 
(注意 : 空 进 程 不 能 够 阻塞 ) 。 
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我 从 不 允许 例外 ， 因 为 例外 否定 规则 。 
— ME Ho 道 尔 壮士 


23.1 引言 

本 章 的 主题 是 异常 处 理 。 由 于 底层 硬件 决定 了 异常 的 报告 方式 ， 所 以 操作 系统 处 理 异 常 时 所 使 用 
的 技术 完全 取决 于 硬件 。 我 们 将 以 E2100L 为 例 ， 描 述 在 该 系统 中 的 异常 处 理 方式 ， 而 其 他 系统 和 架构 
中 的 异常 处 理 方式 留 给 读者 自己 探索 。 

通常 ， 异 常 处 理 涉 及 的 细节 要 多 于 概念 。 因 此 与 前 面 的 章节 不 同 ， 本 章 不 会 介绍 太 多 的 概念 。 读 
者 应 该 把 本 章 所 讨论 的 内 容 作为 一 个 实例 ， 并 牢记 一 旦 使 用 其 他 的 硬件 系统 ， 处 理 异 常 的 细节 和 技术 
都 可 能 改变 。 


23.2 异常、 陷阱 和 恶意 中 断 

将 操作 系统 中 的 设备 地 址 、 中 断 向 量 地 址 和 中 断 调度 器 正确 地 配置 和 连接 在 一 起 ， 对 大 多 数 的 实 
现 者 来 说 是 一 项 枯燥 的 任务 。 硬 件 和 操作 系统 配置 之 间 的 差错 ,会 导致 设备 进入 中 断 向 量 表 的 位 置 与 
操作 系统 的 预期 位 置 不 同 。 向 嵌入 式 系统 中 添加 新 的 设备 时 ， 操 作 系 统 的 软件 必须 重新 配置 ， 以 涵盖 
新 设备 的 驱动 。 

程序 中 的 错误 导致 程序 产生 异常 (exception) 时 ， 有 时 候 也 叫做 陷 人 〈trap) ， 相 关 的 问题 就 出 现 
了 。 如 果 程 序 试图 向 一 个 不 是 4 的 整数 倍 的 内 存 地 址 读 、 写 一 个 字 ， 或 者 试图 执行 除 以 0 的 操作 ， 异 
常 就 会 发 生 。 记 得 当 程 序 试图 执行 非法 指令 时 ， 硬 件 处 理 问题 的 方式 与 处 理 设备 中 断 是 相同 的 。 即 硬 
件 暂 时 停止 “ 取 指 -执行 ”周期 ， 并 使 用 从 异常 向 量 (exception vector). 所 找到 的 地 址 将 控制 权 交 给 
处 理 异 常 的 操作 系统 函数 。 

如 果 发 生 未 预期 的 中 断 ， 则 问题 出 现在 系统 配置 。 一 一 操作 系统 必须 被 重新 配置 以 应 对 新 的 设备 。 
异常 非常 复杂 ， 其 处 理 取 决 于 系统 的 大 小 和 目的 。 如 果 异 常 是 操作 系统 代码 引起 的 ， 那么 系统 的 实现 
者 必须 处 理 该 异常 ， 如 果 异 常 是 第 三 方 的 应 用 程序 引起 的 ， 那 么 该 异常 必须 由 应 用 程序 的 提供 者 处 理 。 

在 传统 的 操作 系统 中 ， 当 应 用 程序 产生 异常 时 ， 操 作 系 统 可 以 终止 运行 该 程序 的 进程 ， 并 告知 用 户 
有 问题 发 生 。 然 而 ， 对 于 磐 人 式 系统 来 说 ， 异 常 恢复 是 困难 的 ， 甚 至 是 不 可 能 的 。 在 这 种 情况 下 ， 即 使 
允许 用 户 与 系统 交互 ， 用 户 也 无 能 为 力 修正 问题 。 因 此 ， 大 部 分 的 嵌入 式 系统 不 是 选择 重启 就 是 关机 。 
本 章 的 实例 代码 沿袭 UNIX 的 传统 ， 把 处 理 异 常 的 函数 命名 为 panic。 这 个 版 本 的 panic 函数 以 一 个 
字符 串 作为 参数 ， 在 控制 台 显示 该 字符 串 ， 并 调用 halt 函数 来 停止 处 理 器 。panic 函数 的 代码 也 极为 简 
单 : 它 既 不 试图 恢复 ， 也 不 试图 识别 引起 异常 的 进程 。 

由 于 涉及 诸多 硬件 相关 的 细节 ， 所 以 显示 寄存 右 或 处 理 融 状态 的 panic 函数 的 版 本 可 能 需要 用 汇编 
语言 编写 。 例 如 ， 因 为 异常 可 能 由 无 效 的 栈 指针 引起 ， 所 以 在 panic 函数 中 就 要 避免 调用 栈 。 为 了 应 对 
所 有 的 情况 ，panic 函数 不 能 简单 地 把 变量 入 栈 或 执行 函数 调用 。 类 似 地 ， 因 为 设备 转换 表 的 表 项 可 能 
是 不 正确 的 ， 所 以 panie 函数 从 设备 转换 表 中 获取 的 控制 台 (CONSOLE) 信息 也 可 能 是 不 可 行 的 。 幸 
运 的 是 ， 这 些 情况 是 十 分 罕见 的 。 所 以 ， 许 多 操作 系统 设计 者 都 从 panic 函数 的 基本 版 本 开始 ， 只 要 操 
作 系统 和 运行 环境 的 大 部 分 运行 正常 ， 那 该 版 本 的 panic 函数 就 仍然 可 用 。 




















23.3 panic 的 实现 


本 章 实现 的 panic 函数 版 本 十 分 简单 ;在 控制 台 (CONSOLE) 上 显示 一 条 消息 ， 关 闭 “ 运 行 ” 指 
示 灯 〈 即 面板 上 的 LED XT) ， 并 调用 halt 函数 。 因 为 MIPS 架构 没有 提供 停止 处 理 器 的 指令 ， 我 们 实现 
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的 halt 函数 简单 地 进入 死 循 环 。 文 件 panic. c 包含 以 下 代码 : 


/* panic.c - panic */ 


#include <xinu.h> 


wf 

void panic ( 
char *msg /* message to display ui 
) 

{ 
intmask mask; /* saved interrupt mask xY 
mask = disable(); 
kprintf("\n\n\rpanic: %s\n\n\r", msg); 
gpioLEDOff(GPIO LED CISCOWHT); /* turn off LED "run" light *7 
halt(); /* halt the processor vy 

} 

23.4 观点 


处 理 异 常 比 看 上 去 要 更 加 复杂 。 考 虑 一 个 应 用 程序 正 进 行 系统 调用 : 尽管 应 用 程序 的 进程 仍 在 运 
行 ， 但 它 执 行 的 是 操作 系统 的 代码 。 如 果 此 时 异常 发 生 ， 该 异常 应 当 被 认为 是 操作 系统 的 问题 ， 而 不 
应 该 调用 进程 的 异常 处 理 函 数 。 类 似 地 ， 当 应 用 程序 执行 共享 库 中 的 代码 时 ， 引 起 的 异常 不 应 当 与 应 
用 程序 本 身 所 产生 的 异常 同等 对 待 。 异 常 处 理 中 的 这 些 差 别 要 求 操 作 系 统 能 够 准确 地 跟踪 应 用 程序 当 
前 的 运行 状态 。 

进程 交互 所 引起 的 异常 也 使 异常 处 理 更 加 复杂 。 例 如 ， 如 果 一 个 Xinu 进程 不 小 心 写 人 了 另 一 个 进 
程 的 地 址 空间 ， 那 么 第 一 个 进程 的 行为 将 引发 第 二 个 进程 的 异常 。 因 此 ， 即 使 系统 提供 了 捕获 异常 的 
机 制 ， 第 二 个 进程 的 异常 处 理 函 数 也 可 能 无 法 预见 该 问题 ， 从 而 没有 办 法 从 异常 中 恢复 。 


23.5 总 结 


捕捉 和 识别 异常 和 未 预期 的 中 断 是 十 分 重要 的 ， 因 为 它们 有 助 于 隔离 实现 中 操作 系统 的 错误 。 因 
此 ， 有 必要 较 早 地 创建 错误 检测 函数 ， 即 使 它们 的 实现 是 粗糙 和 简陋 的 。 

在 嵌入 式 系统 中 ， 异 常 往往 致使 系统 重启 或 关机 。 本 章 给 出 了 panic 函数 的 实例 ， 它 假定 操作 系统 
的 大 部 分 是 运行 正常 的 。 在 此 种 情况 下 ，panic 要 做 的 事情 是 禁止 中 断 ， 在 控制 台 上 输出 一 条 消息 ， 调 
用 halt 函数 停止 处 理 器 。 


练习 

23.1 重 写 Xinu 使 系统 代码 可 连续 重用 ， 并 修改 panic 函数 使 其 等 待 15 秒 ， 然 后 跳 转 到 起 始 位 置 ( 即 重 
JA) 。 

23.2 E panic 函数 中 ， 需 要 多 少 个 调用 栈 中 的 位 置 来 处 理 一 个 异常 ? 

23.3 设计 一 个 允许 执行 中 的 进程 捕获 异常 的 机 制 。 

23.4 一 台 旧 的 LSI-11 计算 机 能 够 捕获 电源 故障 的 异常 ， 而 作者 也 曾 看 到 过 Xinu 输出 电源 故障 的 信息 。 
你 能 否 找到 一 个 处 理 器 ， 它 能 够 检测 刚刚 发 生 的 电源 故障 ? 从 电源 故障 到 关机 这 段 时 间 内 ， 有 多 少 
条 指令 可 以 执行 ? 

23.5 Filth panic 函数 的 运行 需求 。( 提示: 是 否 需 要 调用 栈 ?) 
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24.1 引言 

本 章 通 过 解决 一 个 实际 问题 来 讨论 操作 系统 的 基本 设计 : 如 何 对 前 面 章节 中 的 代码 进行 转换 使 其 
能 够 在 有 特定 设备 的 计算 机 上 工作 。 

本 章 介 绍 配置 的 目的 、 静 态 配 置 和 动态 配置 之 间 的 权衡 ， 并 提供 基本 的 配置 程序 ， 该 程序 可 以 根 
据 对 系统 的 描述 来 生成 与 描述 相 匹 配 的 源 文件 。 


24.2 多 重 配置 的 需求 

早期 的 计算 机 是 作为 单 片 系统 来 设计 的 。 硬 件 和 软件 是 一 起 设计 的 。 设 计 者 选择 CPU、 内 存 和 LO 
设备 的 细节 ， 并 设计 一 个 操作 系统 来 控制 硬件 。 后 来 的 计算 机 增加 了 一 些 选项 ， 人 允许 用 户 选择 大 的 内 存 
还 是 小 的 内 存 和 大 的 磁盘 还 是 小 的 磁盘 。 随 着 产业 的 成 熟 ， 第 三 方 供应 商 开 始 出 售 能 够 连接 到 计算 机 上 
的 外 围 设备 。 现 在 的 计算 机 有 很 多 的 选择 一 一 购买 者 能 够 在 供应 商 提供 的 众多 外 围 设备 中 进行 选择 。 因 
此 ， 一 个 给 定 的 计算 机 应 该 是 多 种 硬件 设备 的 一 种 组 合 ， 而 且 这 种 组 合 可 能 不 同 于 其 他 的 计算 机 。 

设计 者 使 用 两 种 方法 来 调整 设备 的 组 合 : 

。 静态 系统 配置 

。 动态 设备 驱动 

静态 系统 配置 “静态 配置 用 于 自 成 一 体 的 小 型 嵌入 式 系统 中 。 对 于 一 个 典型 的 嵌入 式 系统 来 说 ， 
操作 系统 仅仅 支持 可 用 的 硬件 设备 ， 并 不 包含 任何 额外 的 模块 。 为 了 设计 这 样 的 系统 ， 设 计 者 编写 规 
范 来 说 明 这 个 系统 上 的 正确 的 外 围 设备 。 规 范 是 控制 操作 系统 源 代码 的 配置 程序 的 输入 。 配 置 程序 使 
用 规范 来 选择 目标 设备 所 需要 的 模块 ， 同 时 去 除 其 他 硬件 模块 。 当 对 生成 代码 进行 编译 时 ， 就 可 以 认 
为 硬件 已 经 配置 好 了 。 

动态 设备 驱动 ”动态 设备 负责 驱动 用 于 拥有 大 量 资源 的 大 型 系统 中 。 基 本 的 操作 系统 在 不 知道 具 
体 硬 件 的 条 件 下 开始 运行 。 系 统 负责 探测 硬件 设备 ， 确 定 哪 些 设备 已 经 存在 ， 并 自动 地 载 人 设备 驱动 。 
当然 ， 驱 动 软件 需要 在 本 地 磁盘 上 可 用 ， 或 者 能 够 由 设备 提供 ， 或 者 能 够 在 因特网 上 下 载 。 动 态 配置 
需要 花费 额外 的 时 间 (例如 ， 引 导 程 序 需要 额外 的 时 间 ) o 

静态 配置 是 早期 绑 定 的 形式 。 它 最 主要 的 优点 在 于 内 存 映像 中 只 包含 存在 的 硬件 模块 。 另 一 个 优 
点 表现 在 系统 在 启动 期 间 不 需要 花 时 间 来 识别 硬件 ， 信 息 是 绑 定 在 代码 中 的 。 早 期 配置 方法 最 主要 的 
缺点 是 ， 为 一 台 机 器 所 配置 的 系统 不 能 用 于 另 一 台 机 器 ， 除 非 这 两 台 机 器 是 完全 一 样 的 ， 包 括 内 存 大 
小 和 所 有 设备 的 细节 。 

推迟 配置 的 时 间 到 系统 开始 启动 能 够 使 设计 者 编写 出 更 健壮 的 代码 ， 因 为 一 个 单独 的 系统 能 够 在 
多 种 硬件 配置 上 执行 。 在 启动 阶段 ， 系 统 能 够 使 自己 与 硬件 相 适 应 。 更 重要 的 是 ,动态 配置 能 够 使 系 
统 在 不 停止 运行 的 条 件 下 适应 硬件 的 变化 (例如 ， 当 使 用 者 插 上 或 拔除 一 个 USB 设备 时 ) 。 


24.3 Xinu 系统 配置 

因为 它 作为 租 入 式 系 统 运行 ，Xinu 允许 静态 配置 方法 ， 配 置 工作 主要 发 生 在 系统 编译 和 链接 期 
间 。 当 然 ， 即 使 在 某 些 嵌入 式 系统 中 ， 一 部 分 配置 工作 也 能 够 推迟 到 系统 启动 之 后 。 例 如 ， 有 些 版 本 
的 Xinu 在 Xinu 开始 运行 之 后 计算 内 存 的 大 小 并 检测 实时 时 钟 的 存在 。 在 这 些 系统 中 ， 中 断 向 量 的 初 
始 化 也 发 生 在 系统 运行 之 后 ， 系 统 调用 驱动 初始 化 程序 来 进行 中 断 向 量 的 初始 化 。 

















541 





un 
3 
N 








320 + 第 24 章 系统 配置 








543 








Xinu 使 用 配置 程序 来 自动 地 筛选 设备 驱动 模块 。 不 过 ，config 程序 并 不 是 操作 系统 的 一 部 分 ， 我 
们 不 需要 检查 其 源 代码 。 相 反 ， 我 们 要 察看 config 如 何 运行 : 它 有 一 个 包含 规范 说 明 的 输入 文件 ， 并 
生成 能 够 成 为 操作 系统 代码 一 部 分 的 输出 文件 。24. 4 节 将 解释 配置 程序 并 给 出 例子 。 


24.4 Xinu 配置 文件 的 内 容 

config 程序 将 一 个 命名 为 Configuration 的 文本 文件 作为 输入 。 它 解释 输入 文件 并 产生 两 个 输出 文件 
conf. h 和 conf. c。 我 们 已 经 看 到 过 输出 文件 ， 它 包含 对 设备 定义 的 常量 和 设备 转换 表 的 定义 ” 。 

文件 Configuration 被 分 隔 符 “%%% ”划分 为 3 部 分 : 

。 第 一 部 分 : 设备 类 型 的 类 型 声明 。 

。 第 二 部 分 : 特定 设备 的 设备 规范 。 

。 第 三 部 分 : 自动 产生 的 符号 常量 。 


24. 4.1 第 一 部 分 : 类 型 声明 

类 型 声明 是 为 了 应 对 系统 可 能 包含 特定 硬件 设备 的 多 个 副本 的 情况 。 例 如 ， 一 个 系统 可 能 有 两 个 
使 用 tty 这 个 抽象 概念 的 UART 设备 ， 而 包含 tty 设备 的 函数 集合 必须 对 每 一 个 UART 设备 是 特定 的 。 
手动 多 次 输入 规范 说 明 容易 导致 错误 ， 且 可 能 产生 不 一 致 。 因 此 ， 类 型 声明 允许 只 输入 规范 说 明 一 次 ， 
并 分 配 一 个 在 设备 规范 部 分 两 个 设备 都 能 使 用 的 名 字 。 

每 一 个 类 型 声明 为 一 种 类 型 的 设备 定义 一 个 名 字 ， 并 为 这 个 类 型 列 出 一 个 默认 的 设备 驱动 函数 集 
合 。 这 个 声明 同时 允许 指明 这 种 类 型 与 哪个 设备 硬件 绑 定 。 例 如 ， 类 型 声明 : 


tty: 
on uart 
-i ttyInit -O ionull -c ionull 
-r ttyRead -g ttyGetc -p ttyPutc 
-w ttyWrite -s ioerr -n ttyControl 
-intr ttyInterrupt -irq 11 


定义 一 种 名 为 tty 的、 使 用 在 UART 设备 上 的 类 型 。tty 和 uart 既 不 是 关键 词 也 没有 任何 意义 。 它 们 仅仅 
是 设计 者 所 选择 的 名 字 。 剩 下 的 条 目 指出 类 型 tty 的 默认 设备 函数 。 每 一 个 驱动 函数 之 前 都 有 一 个 以 负 
号 开头 的 关键 字 。 图 24-1 列 出 了 可 能 的 关键 字 并 给 出 了 它们 的 含义 。 注 意 : 一 个 给 定 的 规范 并 不 一 定 
需要 使 用 所 有 的 关键 字 。 





含义 


执行 init 
执行 open 


执行 close | 
执行 read 
执行 write 
执行 seek 
HÍT gete 
-p 执行 putc 



































-n TA T control 





— intr 执行 interrupts 
一 CST 控制 和 状态 寄存 器 地 址 
-irq 中 断 向 量 号 














= 


图 24-1 Xinu 配置 文件 中 使 用 的 关键 字 和 它们 的 含义 








© 文件 conf h 可 以 在 14.9 节 找到 。conf h 可 以 在 14. 14 节 找 到 。 
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24. 4.2 第 二 部 分 : 设备 规范 

Configuration 文件 的 第 二 部 分 包含 了 系统 中 每 个 设备 的 声明 。 声 明 需 要 给 出 设备 的 名 称 (例如 ， 
CONSOLE), ， 并 指明 构成 驱动 的 函数 集合 。 在 Xinu 中 ,设备 是 一 个 抽象 的 概念 ， 不 需要 与 物理 硬件 设 
备 相连 。 例 如 ， 除 了 像 CONSOLE 和 ETHERNET 与 潜在 的 硬件 设备 相 一 致 外 ， 设 备 部 分 还 能 列 出 伪 设 
备 ， 如 用 于 IO 的 FILE 设备 。 

声明 一 个 设备 有 两 个 目的 。 首 先 ， 它 在 设备 转换 表 里 给 设备 分 配 位 置 ， 允 许 使 用 高 级 别 的 WO 原 
语 来 指明 设备 ， 而 不 需要 程序 来 调用 特定 的 驱动 函数 。 其 次 ， 它 允许 config 程序 给 每 个 设备 分 配 一 个 
较 小 的 设备 号 。 所 有 同样 类 型 的 设备 都 分 配 了 从 0 开始 序列 的 最 小 可 用 设备 号 。 

当 一 个 设备 被 声明 后 ， 其 特定 值 可 以 按 需 提供 ， 其 驱动 函数 也 可 以 被 重 写 。 例 如 ， 声 明 : 

CONSOLE is tty on uart -csr 0xB8020000 

声明 CONSOLE 作为 运行 在 UART 硬件 上 的 类 型 tty 的 设备 。 此 外 ， 这 个 声明 指出 其 控制 和 状态 寄存 器 
CSR 的 地 址 为 0xB8020000。 

如 果 程 序 员 想 要 测试 新 版 本 的 ttyGetc， 只 需要 改变 说 明 书 为 : 

CONSOLE is tty on uart -csr 0xB8020000 -g myttyGetc 

上 面 给 出 的 uy 声明 中 使 用 的 是 默认 的 驱动 函数 ,但 参数 myttyGete 重 写 了 gete 函数 。 需 要 注意 的 是 ， 
使 用 配置 参数 可 以 很 方便 地 在 不 改变 或 者 蔡 换 原文 件 的 情况 下 改变 函数 。 


24. 4.3 自动 产生 符号 常量 


除了 定义 设备 转换 表 的 结构 外 ，conf h 中 还 包含 设备 总 数 和 每 个 类 型 号 的 常量 ， 而 config 程序 生 
成 用 于 反映 Configuration 文件 中 设备 规范 的 常量 。 例 如 ， 常 量 NDEVS 是 一 个 整数 ， 用 于 指明 已 经 配 
置 的 设备 总 数 ， 而 设备 转换 表 则 包含 了 NDEVS 个 设备 ， 与 设备 无 关 的 VO 通常 使 用 NDEVS 来 检测 
设备 ID 的 合法 性 。 

config 还 生成 一 些 其 他 变量 的 集合 ， 这 些 变 量 指明 每 个 类 型 的 设备 号 。 驱 动 函 数 可 以 使 用 适当 的 常 
量 来 声明 控制 块 数组 。 每 个 常量 的 形式 都 为 Nxxx*， 这 里 的 xxx 为 类 型 名 。 例 如 ， 如 果 文 件 Configuration 


定义 了 两 个 tty 类 型 的 设备 ，conf h 将 包含 下 面 这 行 代码 : 
#define Ntty 2 


24.5 计算 次 设备 号 

下 面 我 们 来 看 看 配置 (config) 相关 的 文件 。conf h 包含 设备 转换 表 的 声明 ，conf c 包含 初始 化 表 
的 代码 。 对 于 给 定 的 设备 ， 其 devtab 表 项 包含 了 指向 设备 驱动 程序 指针 集合 ， 这 个 程序 与 open, close, 
read 和 write 等 高 级 1/0 操作 相对 应 。 表 项 还 包含 了 中 断 向 量 地 址 和 设备 的 CSR 地 址 。 设 备 转换 表 中 的 
所 有 信息 直接 从 文件 Configuration 得 到 。 

如 前 所 述 ， 设 备 转换 表 中 的 每 个 表 项 都 包含 一 个 次 设备 号 。 次 设备 号 是 用 于 区 别 多 个 相同 类 型 设 
备 的 一 个 整数 。 记 得 设备 驱动 函数 用 次 设备 号 作为 控制 块 数组 的 索引 ， 与 每 个 设备 里 一 个 特殊 表 项 相 
XJK. KEE, config 程序 对 每 种 类 型 的 设备 进行 计算 ， 当 发 现 一 个 设备 时 ，config 就 根据 设备 类 型 分 
配 下 一 个 次 设备 号 (数字 从 0 开始 ) 。 例 如 ， 图 24-2 说 明了 在 一 个 有 3 & tty 设备 和 2 台 eth 设备 的 系 
统 中 ， 如 何 分 配 设备 标识 符 和 次 设备 号 。 
一 
| ETHERNET eth 


COM2 tty 
eth 
tty 


ETHER2 
24-2 设备 配置 的 示例 


























si 
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lu 
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注意 ， 虽 然 三 个 tfy 设备 的 编号 为 0、2 和 4， 但 是 它们 的 次 设备 号 为 0、1 和 2。 


24.6 配置 Xinu 系统 的 步骤 

为 了 配置 Xinu 系统 ， 程 序 员 需要 编辑 Configuration 文件 ， 依 照 要 求 增加 或 者 修改 设备 信息 和 符号 
常量 。 在 运行 过 程 中 ，config 程序 首先 读 取 和 解析 该 文件 ， 收 集 每 种 设备 类 型 的 信息 。 然 后 读 取 设备 规 
范 ， 分 配 次 设备 号 并 生成 输出 文件 conf. c 和 conf. h。 最 后 ，config 程序 将 规范 第 三 部 分 中 的 符号 常量 加 
入 到 conf h 中 ， 使 它们 对 于 操作 系统 可 用 。 

在 config 生成 了 conf. c 和 conf. h 的 新 版 本 后 ，conf c 必须 重新 编译 。 


24.7 MA 

操作 系统 的 历史 是 从 静态 配置 发 展 到 动态 配置 的 过 程 。 有 趣 的 问题 是 动态 配置 的 益处 是 否 大 于 它 
的 成 本 。 例 如 ， 比 较 Xinu 和 大 型 的 商业 操作 系统 ， 比 如 Windows， 即 使 底层 的 计算 机 硬件 没有 经 常 改 
E, 但 商业 操作 系统 总 是 通过 轮 询 总 线 来 找到 现 有 驱动 ， 加 载 驱 动 ， 然 后 与 每 个 设备 相互 作用 。 如 果 
操作 系统 只 有 在 硬件 改变 的 时 候 才 进行 重新 配置 ， 那么 系统 就 可 以 很 快 启动 ， 接 近 Xinu 所 用 的 时 间 。 


24.8 总 结 


设计 者 寻求 方法 使 操作 系统 能 够 配置 ， 而 不 是 为 特定 的 硬件 建立 完整 的 操作 系统 。 静 态 配 置 在 系 
统 编译 和 链接 的 时 候选 择 模 块 ， 而 动态 配置 在 运行 时 才 加 载 设备 驱动 模块 。 

因为 Xin 是 为 钥 入 式 系统 设计 的 ， 所 以 它 使 用 静态 配置 。config 程序 读 取 Configuration 文件 并 生成 
conf. c 和 conf. bh 文件， 它们 定义 和 初始 化 设备 转换 表 。 将 设备 类 型 从 设备 声明 中 分 离 使 得 配置 程序 能 
够 计算 设备 的 次 设备 号 。 


练习 

24.1 编写 函数 myttyRead， 它 循环 调用 ttyGeto 来 满足 需求 。 为 了 测试 你 的 代码 ， 修 改 Configuration 文件 来 
代替 tyRead 部 分 的 代码 。 

24.2 查找 其 他 系统 是 如 何 进行 配置 ? 例如 ， 当 Windows 启动 时 ， 发 生 了 什么 ? 

24.3 如果 每 个 操作 系统 的 函数 都 包括 了 conf. h， 那 么 任何 对 Configuration 文件 的 修改 都 意味 着 生成 一 个 
新 版 本 的 conf. h， 而 且 整 个 系统 必须 重新 编译 。 重 新 编写 config 程序 使 其 将 不 同 导 入 文件 中 的 常量 
分 离 ， 以 消除 不 必要 的 编译 。 

24.4 讨论 配置 程序 是 否 值得 。 包 括 一 些 使 系统 更 容易 配置 所 需要 的 额外 代价 。 记 住 程序 员 在 系统 第 一 次 
配置 的 时 候 很 有 可 能 没有 经 验 。 

24.5 理论 上 ， 当 将 系统 从 一 台 计 算 机 移植 到 另 一 台 计 算 机 的 时 候 ， 系 统 的 很 多 部 分 是 需要 改变 的 。 除 了 
设备 外 ,例如 ， 考 虑 处 理 器 〈 不 只 是 基本 的 指令 集 ， 也 可 能 是 某 些 模块 的 附加 指令 ) 、 协 处 理 器 的 
可 用 性 (包括 浮 点 数 )、 实 时 时 钟 或 时 间 解 析 ， 以 及 整 型 的 字 节 顺序 。 证 明 如 果 系 统 有 以 上 的 参数 ， 
那么 该 系统 是 不 可 测试 的 。 


| 第 25 章 


Operating System Design: The Xinu Approach, Linksys Version 


一 个 用 户 接口 例子 : Xinu sé 


一 个 人 需要 明白 ， 他 不 能 控制 一 切 …… 





James Allen 


25.1 引言 

前 面 的 章节 以 函数 集合 来 阐述 操作 系统 ， 应 用 程序 可 以 调用 这 些 函 数 来 获得 服务 。 但 是 ， 一 个 普 
通用 户 从 来 不 会 接触 系统 函数 ， 而 是 调用 应 用 程序 ， 通 过 应 用 程序 来 访问 底层 系统 函数 。 

本 章 将 研究 基础 的 用 户 接口 一 一 壳 (shel)”， 用 户 可 以 通过 它 来 启动 应 用 程序 并 控制 这 些 应 用 程 
序 的 输入 /输出 。 壳 的 设计 将 遵循 系统 其 他 部 分 的 模式 ， 强 调 简 单 、 优 雅 而 不 是 纷 杂 的 功能 。 本 章 将 关 
注 一 些 基础 思想 ,使 得 壳 不 需要 大 量 代码 就 能 足够 强大 。 本 章 还 将 介绍 一 些 例子 ,包括 解释 用 户 命令 
的 软件 和 用 户 可 调用 的 应 用 程序 。 本 章 的 解释 器 例子 虽然 只 提供 了 基本 的 功能 ， 但 是 它 能 够 说 明 几 个 
重要 的 概念 。 


25.2 用户 接口 


用 户 接口 包括 硬件 和 软件 ,用户 可 以 与 之 交互 执行 计算 任务 并 观察 结果 。 因 此 ， 用 户 接口 软件 处 
于 用 户 和 计算 机 系统 之 间 ， 用 户 指定 需要 做 什么 ， 而 计算 机 系统 则 执行 指定 的 任务 。 

用 户 接口 设计 的 目标 是 创建 一 个 工作 环境 ， 使 得 用 户 在 其 中 执行 计算 任务 方便 而 高 效 。 比 如 ， 大 
多 数 现代 用 户 接口 都 利用 了 图 形 表示 ， 它 包含 一 系列 图 标 ， 用 户 可 以 选择 这 些 图 标 来 启动 应 用 。 图 像 
的 使 用 使 得 应 用 程序 的 选择 变 得 快捷 ， 用 户 也 不 再 需要 记 住 一 大 堆 的 应 用 程序 名 。 

Jt f] RH AGIR BE DE DEZ HP BED: 一 层面 向 终端 用 户 ， 另 一 层面 向 系统 构建 者 。 比 如 
E2100L 路 由 器 ， 它 提供 了 两 层 接口 : 一 层面 向 用 户 的 Web 接口 ， 一 层面 向 程序 员 的 控制 台 接口 。 当 用 
户 使 用 无 线路 由 器 时 ， 用 户 启动 路 由 器 ， 然 后 利用 一 个 常用 的 浏览 器 与 该 设备 进行 交互 。 双 eb 接口 允 
许 用 户 设置 密码 ， 控 制 无 线 网 络 硬件 以 及 设置 路 由 。 可 是 ，Web 接口 不 能 用 来 下 载 软件 或 者 修改 系统 。 
要 执行 该 类 任务 ， 程 序 员 必 须 使 用 控制 台 接口 并 通过 串 行 线 与 之 交互 。 


25.3 命令 和 设计 原则 


业界 一 般 使 用 命令 行 接口 (Command Line Interface, CLI) 来 描述 一 个 允许 用 户 输入 一 系列 文本 命 
令 的 用 户 接口 。 许 多 岩 和 人 式 系统 产品 都 提供 了 命令 行 接口 。 通 常 ， 每 一 行 输入 对 应 一 条 命令 ， 系 统 执 
行 完 一 行 命令 再 读 取 下 一 行 命令 。 术 语 命令 〈command) 的 出 现 是 因为 大 多 数 命令 行 接口 都 遵循 相同 
的 语法 格式 ， 每 一 行 以 一 个 名 字 开 头 指定 行为 ， 而 后 接着 的 参数 用 来 指定 该 行为 的 详细 内 容 以 及 该 行 
为 的 对 象 。 例 如 ， 想 象 一 个 系统 使 用 命令 config 来 控制 与 网 络 接口 相关 的 设置 ， 那么 设置 接口 0 的 
MTU 参数 的 命令 可 能 是 : 





config 0 MTU=1500 
所 有 可 用 命令 的 集合 决定 了 用 户 可 用 的 功能 ( 即 定 义 了 计算 系统 的 能 力 )。 可 是 ， 好 的 设计 不 只 
是 收集 随机 命令 ， 它 需要 遵循 以 下 原则 : 
。 功能 性 : 充分 满足 所 有 需要 。 
e 正 交 性 : 只 有 一 种 方式 执行 指定 任务 。 
。 一 致 性 : 命令 遵循 一 致 模式 。 
。 最 小 意外 性 : 用 户 应 该 能 预测 结果 。 





O Ais "5E" Al Xin 系统 中 其 他 许多 思想 都 来 自 UNIX, 
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25.4 ”一 个 简化 壳 的 设计 决策 

当 程 序 员 设计 壳 时 ， 他 必须 从 诸多 决策 中 进行 选择 。 下 面 的 段落 将 展示 程序 员 需 要 面 对 的 方 方 面 
面 ， 并 描述 一 个 简化 的 Xinu 壳 需要 做 哪些 选择 。 

输入 处 理 ” 在 处 理 回 退 、 字 符 回 显 、 行 删除 的 细节 时 ， 接 口 是 让 终端 设备 驱动 处 理 还 是 自己 处 理 ? 
由 于 该 选择 决定 了 壳 能 够 控制 输入 的 程度 ， 所 以 这 是 一 个 重要 的 决定 。 例 如 ， 现 代 UNIX TEHETI 
输入 编辑 时 允许 使 用 Control- B 和 Control- F 来 移动 光标 的 位 置 ” 。 而 Xinu 的 tty 驱动 并 没有 提供 这 样 的 
编辑 功能 。 

前 台 或 者 后 台 执 行 ” 壳 在 开始 一 条 命令 前 需要 等 待 前 一 个 命令 完成 吗 ? 我 们 的 壳 遵 循 UNIX 传统 ， 
允许 用 户 来 决定 是 等 待 还 是 后 台 执行 命令 。 

输入 和 输出 控制 ”也 与 UNIX 一 样 ， 我 们 的 壳 允 许 用 户 指定 输入 源 地 址 和 输出 目的 地 址 。 这 种 技 
术 称 为 输入 /输出 重 定 向 (1/0 redirection) ， 它 允许 每 条 命令 像 通用 工具 一 样 可 以 应 用 于 各 种 文件 和 输 
人 /输出 设备 。 提 供 重 定向 的 壳 也 意味 着 输入 /输出 格式 是 统一 的 一 一 一 个 单一 的 重 定向 机 制 适用 于 所 
有 命令 。 

类 型 化 或 非 类 型 化 参数 ”该 问题 是 指 壳 是 否 理解 一 个 指定 命令 的 参数 数量 和 类 型 。 按 照 UNIX f£ 
统 ， 我 们 的 过 不 明白 参数 ， 也 不 会 解释 它们 。 相 反 ， 壳 将 每 个 参数 视 为 文本 字符 串 ， 将 参数 集合 再 传 
递 给 命令 。 因 此 ， 每 个 命令 必须 检查 它 的 参数 是 否 合法 。 


25.5 壳 的 组 织 和 操作 

壳 被 组 织 成 一 个 循环 ， 反 复读 取 输 入 行 并 执行 命令 。 一 旦 一 行 被 读 取 ， 壳 必须 提取 命令 名 、 参 数 
以 及 其 他 东西 ， 如 输入 /输出 重 定向 或 者 后 台 执 行 指示 。 按 照 语法 分 析 的 标准 惯例 ， 我 们 将 这 些 代码 分 
为 两 个 函数 : 一 个 进行 词法 分 析 ， 给 字符 分 组 生成 符号 (token) ; 另 一 个 检查 这 些 符号 集合 是 否 形成 
一 个 合法 的 命令 。 

使 用 单独 的 词法 分 析 函 数 对 我 们 简单 的 壳 范 例 语法 或 许 不 太 必 要 。 然 而 ， 由 于 它 方便 以 后 的 扩展 ， 
我 们 还 是 选择 了 该 组 织 方式 。 


25.6 词法 符号 的 定义 
在 词法 层 ， 我 们 的 过 扫描 输入 行 并 将 字符 分 组 为 具有 语义 的 符号 。 图 25-1 列举 了 扫描 器 在 识别 词 
法 符号 以 及 分 类 符号 时 所 用 到 的 4 种 词法 类 型 。 





























| emm (m. 值 ) FH 描述 
SH_TOK_AMPER (0) & “与 ”符号 
SH_TOK_LESS (1) < “小 于 ”符号 
SH_TOK_GREATER (2) > “大 于 ”符号 | 
Lr (3) Tig 被 引号 括 起 来 的 字符 串 〈 单 引号 ) 
SH_TOK_OTHER (3) " ass 被 引号 括 起 来 的 字符 串 〈 双 引号 ) 
SH_TOK_OTHER (3) 其 他 非 空 格 字符 序列 











图 25-1 Xin 壳 使 用 的 词法 符号 


使 用 带 有 引号 的 字符 串 允 许 用 户 指 定 包含 任意 字符 串 的 参数 (或 者 文件 名 ) ， 包 括 壳 识别 的 特殊 
字符 。 每 一 个 被 引用 的 字符 串 以 单 引号 或 者 双 引 号 开始 ， 可 以 包含 所 有 字符 ， 包 括 空 格 和 制 表 符 ， 直 
到 碰 到 相应 的 结尾 引号 。 因 此 ， 字 符 串 


'a string’ 





日 ”对 Control-B 和 Control-F 的 使 用 由 Emacs 编辑 器 派生 而 来 。 
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有 8 个 字符 ,包括 一 个 空格 符 ， 而 字符 串 
"don't blink" 


包含 11 个 字符 ， 包 括 一 个 单 引 号 字符 。 词 法 扫描 器 移 除 两 侧 的 引号 ， 将 剩 下 的 字符 串 序列 分 类 为 SH_ 
TOK OTHER, 

词法 扫描 器 将 仅 包含 空格 符 或 者 制 表 符 的 字符 定义 为 空白 字符 ， 两 个 SH_TOK_OTHER 类 型 的 符 
号 之 间 至 少 有 一 个 空 字符 ， 否 则 空白 符 将 被 忽略 。 


25.7 命令 行 语法 的 定义 
当 一 行 输 入 被 扫描 并 被 分 割 成 一 系列 词法 符号 时 ， 壳 解析 符号 并 验证 它们 是 不 是 有 效 的 序列 。 壳 
所 用 的 语法 是 : 


command name args* [redirection][background] 
方 括号 [ ] 表 示 参 数 可 选 ， 星 号 * 表示 某 项 有 0 个 或 多 个 。 字 符 串 command, name 表示 命令 的 名 称 ，arg * 
表示 参数 可 以 有 0 个 或 多 个 ， 可 选项 redirection 表示 : 输入 重 定向 、 输 出 重 定向 ,或 者 两 者 都 有 ， 
backgroud 表示 是 否 后 台 执行 。 图 25-2 包含 了 利用 符号 来 定义 有 效 输入 的 语法 。 


命令 一 一 ”命令 名 [参数 ] [ 重 定 z= 向 命令 | [ 后 台 命 令 ] 
命令 名 —> SH TOK OTHER 

参数 一 > SH_TOK_OTHER [参数 ] 

重 定向 命令 一 一 ”输入 重 定向 命令 [输出 重 定向 命令 ] 

重 定向 命令 一 一 ”输出 重 定向 命令 [输入 重 定向 命令 ] 


输入 重 定向 命令 ” 一 > SH_TOK_LESS SH_TOK_OTHER 
输出 重 定向 命令 ”一 > SH_TOK_GREATER SH_TOK_OTHER 
后 台 命 令 ——» SH_TOK_AMPER 


图 25-2 有 效 符号 序列 的 语法 
本 质 上 ， 一 个 命令 包含 一 个 或 者 多 个 “其 他 的 ”可 选 令 牌 ， 它 们 表示 重 定向 输入 /输出 或 者 后 台 
执行 的 符号 。 一 行 中 第 一 个 符号 必须 是 命令 名 。 
25.8 Xinu 壳 的 实现 
我 们 从 壳 中 使 用 的 常量 和 变量 的 定义 开始 来 检查 它 的 实现 。 文 件 shell. h 包含 这 些 声明 。 


/* shell.h - declarations and constants used by the Xinu shell */ 


/* Size constants */ 


#define SHELL_BUFLEN TY IBUFLEN-«1 /* length of input buffer */ 
#define SHELL MAXTOK 32 /* maximum tokens per line * 
#define SHELL CMDSTK 8192 /* size of stack for process * 

z= that executes command ay 
#define SHELL_ARGLEN (SHELL_BUFLEN+SHELL_MAXTOK) /* argument area *J 
#define SHELL CMDPRIO 20 /* process priority for command */ 


/* Message constants */ 


/* Shell banner (assumes VT100) */ 





#define SHELL BANO "\033[1;31m" 
#define SHELL BAN1 "------------------------------------------ s 
#define SHELL BAN2 " = n DA ^ 
#define SHELL BAN3 * MA #7 ql BAIE PL] qi 
«define SHELL BAN4 " NX WAY 7 | | k SNL EB FP gd I i 


#define SHELL BANS " J IX\\ XX Jd (ENS YT [TL LA * 
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#define SHELL BAN6 " TL A T I p TW] Ax —— 4 " 
#define SHELL BAN7 " -- --  ----- - 一 ---- d 
#define SHELL, BAN8 M_----------------------------------------- s 
#define SHELL_BAN9 "\033[0;39m\n" 


/* Messages shell displays for user */ 


#define SHELL_PROMPT "xsh $ " /* prompt Rf 
#define SHELL STRTMSG "Welcome to Xinu!\n" /* Welcome message xy 
*define SHELL EXITMSG "Shell closed\n" /* shell exit message *y 
#define SHELL SYNERRMSG "Syntax error\n" /* syntax error message */ 
#define SHELL CREATMSG "Cannot create process\n"/* command error ei d 


#define SHELL INERRMSG "Cannot open file %s for input\n" /* input err  */ 
#define SHELL OUTERRMSG "Cannot open file $s for output\n"/* output err */ 
#define SHELL BGERRMSG "Cannot redirect I/O or background a builtin\n" 


/* builtin cmd err Cf 
/* Constants used for lexical analysis */ 
#define SH_NEWLINE "jn /* New line character */ 
#define SH_EOF “\04 /* Control-D is EOF ey 
#define SH AMPER '&' /* ampersand character xs 
#define SH BLANK dna /* blank character * f 
#define SH TAB "NE" /* tab character eJ 
#define SH SQUOTE d t E /* single quote character x 
#define SH DQUOTE on /* double quote character #4 
#define SH_LESS g! /* less-than character */ 
#define SH_GREATER es t /* greater-than character #7 
/* Token types */ 
#define SH_TOK_AMPER 0 /* ampersand token <y 
#define SH_TOK_LESS 1 /* less-than token wf 
#define SH_TOK_GREATER 2 /* greater-than token Ld 
#define SH_TOK_OTHER 3 /* token other than those z 
y* listed above (e.g., an yt 
/* alphanumeric string) tai; 


/* Shell return constants */ 


#define SHELL OK 0 
$define SHELL ERROR L 
#define SHELL EXIT -3 


/* Structure of an entry in the table of shell commands */ 


struct cmdent { /* entry in command table uii 
char *cname; /* name of command #/ 
boo18 cbuiltin; /* is this a builtin command? wy 
int32 (*cfunc) (int32,char*[]);/* function for command wy 


3; 


extern  uint32 ncmd; 
extern const struct  cmdent cmdtab[]; 


文件 shell. h 最 后 部 分 定义 的 emdtab 表 负 责 保存 过 命令 信息 。 表 中 的 每 一 个 表 项 都 是 一 个 cmdent 
结构 ， 它 包含 3 项 ; 命令 名 、 指 定 命令 是 否 严格 要 求 内 置 执行 的 布尔 值 ， 和 指向 实现 命令 函数 的 指针 。 
后 面 的 章节 将 讨论 命令 表 如 何 初始 化 以 及 如 何 使 用 。 
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25.9 符号 的 存储 
Xinu 壳 使 用 的 数据 结构 有 点 令 人 意外 : 它 用 一 个 叫做 toktyp 的 整数 数组 来 记录 每 个 符号 的 类 型 ， 
并 将 这 些 符号 存储 为 以 空 值 终止 的 字符 串 ， 打 包 存 储 在 一 个 字符 串 数组 tokbuf 组 成 的 连续 区 域内 ; 用 
一 个 整数 数组 tok 来 保存 每 个 符号 的 起 始 索 引 。Xinu 壳 依 赖 于 两 个 计数 器 : ntok ， 统 计 目前 找到 的 符号 
数 ; tlen， 统 计 tokbuf 数组 中 保存 的 字符 数 。 为 了 理解 该 数据 结构 ， 不 妨 考虑 如 下 输入 行 的 例子 : 
date > file & 


该 行 包 含 4 个 符号 。 图 25-3 展示 了 词法 分 析 器 是 如 何 利 用 填充 数据 结构 来 保存 输入 行 中 所 提取 的 符号 。 


toktyp tok 
3 0 
2 5 
3 ntok=4 7 
o F 1 


tokbuf 


12 
UB | 
tlen=13 


图 25-3 AAT “date > file &” 的 变量 tokbuf, toktyp, ntok 和 tlen 的 内 容 
如 图 25-3 所 示 ， 符 号 自身 保存 在 数组 tokbuf 中 ， 空 白字 符 被 移 除 。 每 个 符号 以 一 个 空 字符 结尾 。 
数组 tok 中 保存 的 每 个 整数 都 是 指向 tokbuf 的 一 个 索引 值 一 一 tok 的 第 i 个 元 罕 给 出 了 第 i 个 符号 在 tok- 
buf 中 的 位 置 。 最 后 ， 数 组 toktyp 的 第 i 个 元 素 表明 了 第 i 个 符号 的 类 型 。 例 如 ， 输 入 行 的 第 三 个 符号 
file 的 类 型 是 3 (SH TOK OTHER?), ， 它 的 起 始 值 为 数组 tokbuf 的 第 i 个 元 素 。 


25. 10 词法 分 析 器 代码 
由 于 Xinu 壳 语 法 很 简单 ， 所 以 其 词法 分 析 也 十 分 容易 。 文 件 lexan. c 包含 这 些 代码 。 


/* lexan.c - lexan */ 











7 
f J 











i e 





Ta 


























#include <xinu.h> 


#4 
int32 lexan ( 
char *line, /* input line terminated with ky 
/* NEWLINE or NULLCH */ 
int32 len, /* length of the input line, *j 
ye including NEWLINE */ 
char *tokbuf, /* buffer into which tokens are */ 
{e stored with a null */ 
1% following each token * y 
int32 *tlen, /* place to store number of xy 





Q 图 25-1 列 出 了 每 个 令 牌 类 型 的 数字 值 。 
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/* chars in tokbuf */ 
int 32 tok[], /* array of pointers to the Lu) 
4/5 start of each token ky 
int32 toktyp[] /* array that gives the type xj 
/* of each token *J/ 

) 

{ 

char quote; /* character for quoted string */ 
uint32 ntok; /* number of tokens found ta 
char wy /* pointer that walks along the */ 
p* input line ai 
int32 tbindex; /* index into tokbuf #/ 
char ch; /* next char from input line * 4 


/* Start at the beginning of the line with no tokens */ 


ntok = 0; 
p = line; 
tbindex = 0; 


/* While not yet at end of line, get next token */ 
while ( (*p != NULLCH) && (*p !- SH NEWLINE) ) { 
/* If too many tokens, return error */ 


if (ntok >= SHELL MAXTOK) { 
return SYSERR; 
) 


/* Skip whitespace before token */ 


while ( (*p == SH BLANK) || (*p == SH TAB) ) { 
p++; 


} 
/* Stop parsing at end of line (or end of string) */ 


ch = *p; 

if ( (ch==SH_NEWLINE) || (ch==NULLCH) ) { 
*tlen = tbindex; 
return ntok; 


/* Set next entry in tok array to be an index to the RY 
/* current location in the token buffer */ 
tok[ntok] = tbindex; /* the start of the token xy 


/* Set the token type */ 
switch (ch) { 


case SH_AMPER: toktyp[ntok] = SH_TOK_AMPER; 
tokbuf [tbindex++] = ch; 
tokbuf [tbindex++] = NULLCH; 
ntok++; 
ptt; 
continue; 


case SH LESS: toktyp[ntok] = SH TOK, LESS; 
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tokbuf [tbindex++] = ch; 
tokbuf [tbindex++] = NULLCH; 
ntok++; 

ptt; 

continue; 


case SH GREATER: toktyp[ntok] = SH TOK GREATER; 
tokbuf [tbindex++] ch; 
tokbuf [tbindex++] NULLCH; 
ntok++; 
ptt; 


continue; 


Ii 


default: toktyp[ntok] = SH_TOK_OTHER; 
}; 


/* Handle quoted string (single or double quote) */ 


if ( (ch==SH_SQUOTE) || (ch==SH_DQUOTE) ) { 
quote = ch; /* remember opening quote */ 


/* Copy quoted string to arg area */ 


p++; /* Move past starting quote */ 
while ( ((ch = *p++) != quote) && (ch != SH_NEWLINE) 
&& (ch != NULLCH) ) ( 
tokbuf [tbindex++] = ch; 
} 
if (ch != quote) { /* string missing end quote */ 


return SYSERR; 


/* Finished string - count token and go on #7 
tokbuf [tbindex++] = NULLCH; /* terminate token  */ 
ntok++; /* count string as one token */ 
continue; /* go to next token EJ 
} 
/* Handle a token other than a quoted string ef 


tokbuf [tbindex++] = ch; /* put first character in buffer*/ 
ptt; 


while ( ((ch = *p) != SH NEWLINE) && (ch != NULLCH) 
&& (ch !- SH LESS) && (ch !- SH GREATER) 
&& (ch !- SH BLANK) && (ch !- SH TAB) 


&& (ch !- SH AMPER) && (ch !- SH SQUOTE) 
&& (ch !- SH, DQUOTE) ) { 

tokbuf [tbindex++] = ch; 

ptt; 


/* Report error if other token is appended */ 

if (ch == SH SQUOTE) || (ch == SH DQUOTE) 
|| (ch == SH_LESS) || (ch == SH GREATER) ) ( 
return SYSERR; 
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tokbuf [tbindex++] = NULLCH; /* terminate the token  */ 


ntok++; /* count valid token kJ 


M - tbindex; 
return ntok; 

) 

函数 lexan 的 前 两 个 参数 给 出 了 输入 行 的 地 址 和 它 的 长 度 。 后 面 的 参数 给 出 了 图 25-3 中 数据 结构 
的 指针 。lexan 首先 初始 化 找到 的 符号 数量 、 输 入 行 的 指针 以 及 数组 tokbuf 中 的 索引 ， 然 后 进入 while 
循环 运行 直到 指针 p 到 达 文 件 的 结尾 。 

在 处 理 符号 时 ，lexan 跳 过 空白 字符 〈 即 空格 和 制 表 符 ) ， 将 tokbuf 的 当前 索引 保存 在 tok 中 ,用 
switch 语句 选择 适用 于 下 一 个 输入 字符 的 行为 。 对 于 3 个 单字 符 符 号 〈 即 芭 、> 和 < ) lexan 将 符号 类 
型 记录 在 数组 toktyp 中 ， 将 符号 以 空 值 结尾 放 在 tokbuf 数组 中 ， 递 增 ntok ， 移 动 到 字符 串 的 下 一 个 字 
符 ， 然 后 继续 执行 while 循环 来 处 理 下 一 个 输入 字符 。 

当 字符 不 是 这 3 个 单字 符 符 号 的 时 候 ，lexan 记录 这 些 符号 类 型 为 SH_TOK_OTHER， 然 后 继续 进 
A switch 语句 中 。 此 时 有 两 种 情况 : 符号 是 引号 引起 的 字符 串 ;， 或 是 以 特殊 字符 或 空白 字符 结尾 的 连 
续 字 符 串 。lexan 能 够 识别 单 引 号 和 双 引 号 字符 ， 字 符 串 以 第 一 个 匹配 的 引号 或 者 文件 结束 符 结束 。 如 
果 碰 到 文件 结束 符 ，lexan 就 返回 SYSERR; 否则 ， 它 毫 无 修改 地 将 字符 串 复 制 到 tokbuf 数组 中 ， 也 就 
是 说 ， 它 能 包含 任意 字符 ， 包 括 空 白 或 者 其 他 引号 标记 的 字符 。 当 复制 操作 结束 时 ， 词 法 分 析 器 添加 
一 个 null 字符 来 定义 符号 的 结尾 。 然 后 继续 在 while 循环 中 寻找 下 一 个 符号 。 

代码 的 最 后 一 部 分 处 理 包 含 连续 字符 的 符号 。 代 码 循环 直到 找到 一 个 特殊 字符 或 者 空白 字符 ， 然 
后 将 字符 放 在 数组 tokbuf 接 下 来 的 位 置 中 。 在 继续 处 理 下 一 个 符号 前 ,代码 检查 两 个 符号 间 是 否 有 

当 lexan 碰 到 行 的 结束 符 时 ， 它 就 返回 找到 的 符号 数量 。 如 果 在 执行 阶段 检测 到 一 个 错误 ，lexan 
就 返回 SYSERR 给 调用 者 ， 并 不 尝试 修复 或 复原 问题 。 练 习题 中 讨论 了 错误 处 理 和 建议 的 替代 方案 。 


25.11 命令 解释 器 的 核心 

尽管 命令 解释 器 必须 处 理 许多 细节 ， 但 是 最 基本 的 算法 还 是 不 难 理解 的 。 本 质 上 ， 其 代码 包含 一 
个 重复 读 取 输 入 行 的 循环 ， 然 后 用 lexan 抽取 符号 ， 检 查 语法 ， 传 递 参 数 ， 如 果 有 必要 还 要 进行 VO E 
定向 ， 并 且 根据 说 明 在 后 台 或 者 前 台 运 行 命令 。 如 果 用 户 输入 文件 结束 符 (control-d) 或 者 命令 返回 
特殊 的 退出 码 ， 循 环 就 终止 。 

与 词法 分 析 器 一 样 ， 命 令 解释 器 使 用 了 一 种 特殊 的 实现 。 它 的 代码 既 不 像 传统 的 编译 器 ， 也 不 包 
括 独 立 的 代码 来 检查 符号 序列 是 否 正确 。 相 反 ,， 在 处 理 过 程 的 每 一 步 中 它 都 进行 错误 检查 。 例 如 ， 在 
处 理 完 后 台 参 数 和 VO 重 定向 参数 之 后 ，Xinu 壳 确 认 剩 下 的 符号 是 否 都 是 SH_TOK_OTHER 类 型 。 

下 面 的 文件 shell. c 包含 这 部 分 的 代码 。 需 要 注意 的 是 ， 代 码 中 还 声明 了 emdtab 数组 ， 该 数组 中 指 
定 了 命令 集 和 处 理 这 些 命令 相应 的 函数 。 此 外 代码 还 包含 外 部 变量 nemd， 它 指明 表 中 命令 的 数量 。 

在 概念 上 ， 命令 集 独立 于 处 理 用 户 输入 的 代码 。 因 此 ， 将 shell. c 分 为 两 个 文件 是 合理 的 : 一 个 文 
件 定义 命令 ， 另 一 个 包括 处 理 代码 。 然 而 ， 实 际 上 这 两 个 文件 被 合并 为 一 个 ， 因 为 在 这 个 例子 中 命令 
集 很 少 ， 增 加 一 个 文件 没有 必要 。 


/* shell.c - shell */ 


#include <xinu.h> 
#include <stdio.h> 
#include "shprototypes.h" 


[ORO II III kk kk kk Kk OK ROO KC CK ROCK Kk KC kk I ok kok kk joke IO ROO K eK AK Y 


/* Xinu shell commands and the function associated with each */ 
[ORO RII III ICICI ICR I AOI ICR III ICICI I ICICI I TOR TORR RII KORR KORR RR IO Y 


const struct  cmdent cmdtab[] 


{"argecho", TRUE, 

{"arp", FALSE, 
{ "cat", FALSE, 
{"clear", TRUE, 

{"date", FALSE, 
{"devdump", FALSE, 
{"echo", FALSE, 
{"ethstat", FALSE, 
{"exit", TRUE, 

{"help", FALSE, 
{"ipaddr", FALSE, 
1 TRUE, 

{"led", FALSE, 
{"memdump", FALSE, 
{"memstat", FALSE, 
{"nvram", FALSE, 
{"ping", FALSE, 
("ps", FALSE, 
("sleep", FALSE, 
("udpdump", FALSE, 
("udpecho", FALSE, 
("udpeserver", FALSE, 
("uptime", FALSE, 
{2 4 FALSE, 





hi 


uint32 ncmd = sizeof (cmdtab) 
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= { 
xsh argecho], 
xsh arp), 
xsh cat), 
xsh clear), 
xsh, date), 
xsh devdump), 
xsh echo], 
xsh ethstat], 
xsh exit], 
xsh help], 
xsh ipaddr), 
xsh kill), 
xsh led), 
xsh_memdump} , 
xsh_memstat}, 
xsh_nvram}, 
xsh_ping}, 
xsh_ps}, 
xsh_sleep}, 
xsh_udpdump}, 
xsh_udpecho}, 
xsh_udpeserver}, 
xsh_uptime}, 
xsh_help} 


/ sizeof(struct cmdent) ; 


[RRR kk RR e khe ehe e he he IR e e IK IKK KR khe de e he khe e ke he ke he ehe RK KR e he e ke ke IK HR KIRK e e ke e KER e kk / 


/* Xinu shell - provide an interactive user interface that executes "y 
7* commands. Each command begins with a command name, has */ 
$^ a set of optional arguments, has optional input or * y 
fE output redirection, and an optional specification for. */ 
pF background execution (ampersand). The syntax is: */ 
gE */ 
pf command_name [args*] [redirection] [&] */ 
/* */ 
/* Redirection is either or both of: Ey 
/* AG: 
fe < input_file */ 
Vi or */ 
Pili > output_file * jy 
/* */ 


SEERE EREE EREEREER Re Oe e ke dee e eee eee RK eee eee ede ee eee ee ede ok dee ee ke kkk EK dede e eee eek j 


process shell ( 
did32 dev 


/* ID of tty device from which  */ 


) /* to accept commands */ 
{ 

char buf[SHELL BUFLEN]; /* input line (large enough for */ 

/* one line from a tty device */ 

int32 len; /* length of line read ia 

char tokbuf[SHELL BUFLEN + /* buffer to hold a set of ef 

SHELL MAXTOK]; /* contiguous null-terminated * | 

/* strings of tokens ha 


int32 tlen; 


/* current length of all data L2 d 
ce in array tokbuf ry 
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int32 
int32 
int32 
pid32 
bool8 
char 

did32 
int32 
int32 
int32 


int32 


char 


bool8 


char 


tok[SHELL MAXTOK]; /* index of each token in 
/* tokbuf 
toktyp [SHELL MAXTOK]; /* type of each token in tokbuf 
ntok; /* number of tokens on line 
child; /* process ID of spawned child 
backgnd; /* run command in background? 
*outname, *inname; /* ptrs to strings for file 
{* names that follow > and < 
stdinput, stdoutput; /* descriptors for redirected 
/* input and output 
i: /* index into array of tokens 
ji /* index into array of commands 
msg; /* message from receive() for 
/* child termination 
tmparg; /* address of this var is used 


pt when first creating child 


PE process, but is replaced 
*src, *cmp; /* ptrs using during name 
fe comparison 
diff; /* was difference found during 
p* comparison 
*args[SHELL MAXTOK]; /* argument vector passed to 


fR builtin commands 


/* Print shell banner and startup message */ 


fprintf (dev, "\n\n%s%s\n%s\n%s\n%s\n%s\n$s\n%s\n$s\n%s\n", 


SHELL_BANO, SHELL_BAN1, SHELL_BAN2, SHELL_BAN3, SHELL_BAN4, 


SHELL_BANS , SHELL_BAN6, SHELL_BAN7 , SHELL_BAN8, SHELL_BAN9); 


fprintf (dev, "%s\n\n", SHELL STRTMSQ); 


/* Continually prompt the user, read input, and execute command 


while (TRUE) { 


/* Display prompt */ 
fprintf (dev, SHELL, PROMPT); 
/* Read a command (for tty, 0 means entire line) */ 
len = read(dev, buf, sizeof(buf)); 
/* Exit gracefully on end-of-file */ 
if (len == EOF) { 
break; 
/* If line contains only NEWLINE, go to next line */ 
if (len <= 1) { 
fprintf(dev,"\n"); 
continue; 
buf [len] = SH NEWLINE;  /* terminate line */ 


/* Parse input line and divide into tokens */ 


*f 
A 
i 
wf 
*/ 
*/ 
i 
sl 
*y 
ey 
*/ 
A 
*/ 
f 
ay 
ey 
i 
uid 
xy 
ial 
"y 
wif 
"Y 


xy 
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ntok = lexan(buf, len, tokbuf, &tlen, tok, toktyp); 
/* Handle parsing error */ 
if (ntok == SYSERR) { 


fprintf(dev,"%s\n", SHELL_SYNERRMSG) ; 
continue; 


/* If line is empty, go to next input line */ 
if (ntok == 0) { 


fprintf(dev, "\n"); 
continue; 


/* If last token is '&', set background */ 


if (toktyp[ntok-1] == SH_TOK_AMPER) { 
ntok-- ; 
tlen-= 2; 
backgnd = TRUE; 

} else { 


backgnd = FALSE; 


/* Check for input/output redirection (default is none) */ 


outname = inname = NULL; 


if ( (ntok >=3) && ( (toktyp[ntok-2] == SH_TOK_LESS) 
| | (toktyp[ntok-2] == SH_TOK_GREATER))) { 
if (toktyp[ntok-1] != SH_TOK_OTHER) { 
fprintf (dev, "%s\n", SHELL_SYNERRMSG) ; 
continue; 
} 
if (toktyp[ntok-2] == SH_TOK_LESS) { 
inname = &tokbuf[tok[ntok-1]]; 
} else { 


outname = &tokbuf[tok[ntok-1]]; 
} 
ntok -= 2; 
tlen = tok[ntok] - 1; 


if ( (ntok >=3) && ( (toktyp[ntok-2] == SH_TOK_LESS) 
| | (toktyp[ntok-2] == SH_TOK_GREATER))) { 
if (toktyp [ntok-1] != SH_TOK_OTHER) { 
fprintf (dev, "%s\n", SHELL SYNERRMSG); 
continue; 
} 
if (toktyp[ntok-2] == SH_TOK_LESS) { 


if (inname != NULL) { 
fprintf (dev, "%s\n", SHELL, SYNERRMSG) ; 
continue; 


) 
inname = &tokbuf[tok[ntok-1]]; 
) else ( 
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if (outname != NULL) ( 
fprintf (dev, "%s\n", SHELL SYNERRMSG); 
continue; 


} 
outname = &tokbuf[tok[ntok-1]]; 


} 
ntok -= 2; 
tlen = tok[ntok] - 1; 


/* Verify remaining tokens are type "other" */ 


for (i=0; i«ntok; i++) { 


if (toktyp[i] != SH TOK OTHER) { 
break; 
} 
} 
if ((ntok == 0) || (i < ntok)) { 
fprintf (dev, SHELL SYNERRMSG); 
continue; 
} 


stdinput = stdoutput = dev; 


/* Lookup first token in the command table */ 


for (j = 0; j < ncmd; j++) { 
src = cmdtab[j].cname; 


cmp = tokbuf; 
diff = FALSE; 
while (*src != NULLCH) { 
if (*cmp != *src) { 
diff - TRUE; 
break; 
} 
Srctt; 
cmp++; 
} 
if (diff) { 
continue; 
} else { 
break; 


/* Handle command not found */ 

if (j >= nemd) { 
fprintf(dev, "command $s not found\n", tokbuf); 
continue; 


/* Handle built-in command */ 


if (cmdtab[jl.cbuiltin) ( /* no background or redirection */ 


if (inname !- NULL || outname !- NULL || backgnd) ( 
fprintf (dev, SHELL BGERRMSG); 
continue; 


) else ( 
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/* Set up arg vector for call */ 


for (i=0; i«ntok; i++) ( 
args[i] = &tokbuf[tok[i]]; 


) 


/* Call builtin shell function */ 


if ((*cmdtab[j].cfunc) (ntok, args) 
== SHELL EXIT) ( 


break; 


) 


continue; 


) 


/* Open files and redirect I/O if specified */ 


if (inname !- NULL) ( 
stdinput - open (NAMESPACE, inname, "ro"); 


if (stdinput -- SYSERR) ( 
fprintf(dev, SHELL INERRMSG, inname); 
continue; 
} 
} 
if (outname != NULL) ( 
stdoutput = open(NAMESPACE, outname, "w") ; 
if (stdoutput == SYSERR) { 
fprintf(dev, SHELL OUTERRMSG, outname); 
continue; 
) else ( 


control(stdoutput, F CTL TRUNC, O0, 0); 


/* Spawn child thread for non-built-in commands */ 


child = create(cmdtab[j].cfunc, 
SHELL CMDSTK, SHELL CMDPRIO, 
cmdtab[j]l.cname, 2, ntok, &tmparg); 


/* If creation or argument copy fails, report error */ 


if ((child -- SYSERR) || 
(addargs(child, ntok, tok, tlen, tokbuf, &tmparg) 
== SYSERR) ) ( 
fprintf(dev, SHELL CREATMSG); 
continue; 


/* Set stdinput and stdoutput in child to redirect I/O */ 


proctab[child].prdesc[0] = stdinput; 
proctab[child].prdesc[1] = stdoutput; 


msg - recvclr(); 
resume (child); 
if (! backgnd) ( 
msg - receive(); 


335 


336 
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while (msg != child) { 
msg = receive (); 


} 
} 
/* Close shell */ 


fprintf (dev, SHELL_EXITMSG) ; 
return OK; 
} 


主 循环 调用 lexan 将 输入 行 分 割 为 一 个 个 符号 ， 并 开始 处 理 具体 的 命令 。 首 先 ， 代 码 检查 用 户 是 否 
在 最 后 添加 了 & 符号 。 如 果 是 ， 它 设置 布尔 型 变量 backgnd Jy TRUE; 否则 backgnd 设置 为 FALSE。 该 
变量 用 来 决定 命令 是 否 在 后 台 运 行 。 

在 后 台 符 号 删除 之 后 ， 壳 检查 VO 重 定向 。 命 令 中 可 以 指定 输入 和 输出 重 定向 ， 指 定 的 顺序 不 限 ， 
但 是 必须 在 剩 下 符号 的 最 后 。 因 此 ， 壳 会 检查 重 定向 两 次 。 如 果 指 定 了 两 个 重 定向 ， 充 会 检查 这 两 个 
重 定向 是 否 都 是 输入 或 者 都 是 输出 。 处 理 到 此 处 时 ， 壳 只 保留 文件 名 字 指 针 ， 而 不 去 试图 打开 文件 
(打开 文件 在 之 后 进行 ) o 

删除 指定 的 VO 重 定向 的 符号 后 ， 剩 下 的 就 是 命令 名 和 命令 参数 。 因 此 ， 在 继续 处 理 命 令 之 前 ， 
壳 会 迭代 确认 剩余 的 符号 是 否 是 “其 他 ”类 型 (SH_TOK_OTHER) 。 如 果 有 不 是 的 ， 代 码 输出 错误 信 
息 并 移 到 下 一 输入 行 。 检 查 无 误 后 ， 壳 执行 相应 的 函数 来 运行 该 命令 。 


25.12 ”命令 名 查询 和 内 部 处 理 

每 一 行 的 第 一 个 符号 是 命令 的 名 字 。 记 得 命令 的 信息 是 存储 在 cmdtab 数组 中 ， 因 此 可 以 直接 进行 
顺序 查询 ， 查 看 是 否 与 当前 的 命令 名 相 匹配 。 如 果 没 有 找到 匹配 的 命令 名 ， 代 码 输出 错误 信息 ， 并 继 
续 处 理 下 一 个 命令 。 

我 们 的 壳 支 持 两 种 命令 : 内 部 命令 和 外 部 命令 。 这 两 种 命令 的 区 别 在 于 它们 的 运行 方式 不 同 : 壳 
用 传统 的 函数 调用 方式 运行 内 部 命令 ， 而 运行 外 部 命令 时 则 创建 一 个 线程 来 执行 。 这 样 的 区 别 也 就 意 
味 着 对 于 内 部 命令 ， 用 户 无 法 设 定 其 为 后 台 运 行 并 且 也 无 法 设 定 VO 重 定向 ” 。 

为 了 检查 一 个 命令 是 否 是 内 部 命令 ， 壳 检查 数组 cmdtab 中 每 一 项 的 cbuiltin 字段 。 对 于 内 部 命令 ， 
不 允许 重 定向 和 后 台 运 行 。 因 此 ， 壳 确认 用 户 没 有 进行 这 两 项 设置 ， 然 后 用 args 创建 一 个 参数 表 ， 并 
调用 命令 函数 。25. 13 节 介 绍 如 何 组 织 命令 参数 。 : 


25.13 ” 传 给 命令 的 参数 

我 们 例子 中 的 过 参数 传递 策略 与 UNIX 壳 采 用 的 策略 一 样 。 在 调用 命令 时 ， 壳 把 从 命令 行 中 取得 
的 符号 作为 未 解析 的 以 null 结尾 的 字符 串 传 递 。 壳 不 知道 一 个 命令 需要 多 少 个 参数 ， 也 不 知道 传递 的 
参数 是 否 有 意义 。 壳 只 是 负责 传递 这 些 参数 ， 然 后 让 命令 自己 去 检查 和 解析 它们 。 

理论 上 ， 壳 可 以 传递 任意 数量 的 字符 串 参 数 ， 而 参数 的 数量 仅仅 受 限 于 输入 行 的 长 度 。 为 了 让 编 
程 简单 统一 ， 壳 创建 了 一 个 指针 数组 ， 并 且 在 调用 命令 时 只 传递 两 个 参数 : 一 个 是 参数 的 个 数 ， 一 个 
是 参数 指针 数组 。UNIX 将 这 两 个 参数 命名 为 arge 和 argv, Xinu 则 叫做 nargs 和 args。 这 些 名 字 只 是 一 
种 约定 一 一 程序 员 在 编写 实现 命令 的 函数 时 ， 可 以 任意 给 它们 起 名 字 。 

例子 中 的 壳 采 用 了 UNIX 中 的 另 一 个 约定 : args 数组 中 的 第 一 项 是 指向 命令 名 的 指针 。 通 过 下 面 的 
例子 可 以 看 到 其 中 的 细节 。 考 虑 这 样 一 个 命令 行 : 

date -f illegal 


KESK illegal 在 命令 date 中 并 不 合法 ,但 是 壳 只 是 简单 地 传递 这 些 参 数 ， 然 后 让 执行 date 命令 的 函 








日” 有 一 道 练习 题 提示 了 一 种 方法 ， 使 得 内 部 命令 和 外 部 命令 之 间 的 区 别 变 得 不 那么 明显 。 


第 25 章 一 个 用 户 接 口 例子 : Xinu 壳 © 337 


数 对 这 些 参 数 的 合法 性 进行 检查 。 图 25-4 说 明了 壳 向 date 函数 传递 的 两 个 参数 。 











nargs args 
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图 25-4 对 输入 行 : date -fillegal， 壳 传递 给 date 命令 的 两 个 参数 (nargs 和 args) 


虽然 向 命令 传递 一 个 整数 (如 nargs) 是 很 容易 的 ， 但 是 传递 args 数组 则 要 复杂 得 多 。 本 质 上 ，,， 壳 
必须 先 创建 数组 args， 然 后 将 它 的 地 址 传递 给 命令 。 这 里 有 两 种 情况 ， 内 部 命令 和 外 部 命令 。 我 们 先 
考虑 内 部 命令 。 

壳 解析 完 命令 行 并 移 除 了 VO 重 定向 和 后 台 符 号 之 后 ， 变 量 nok 将 包含 剩 下 符号 的 个 数 ， 也 就 是 
nargs。 而 且 ， 数 组 tok 中 包含 每 个 符号 在 tokbuf 中 的 索引 。 因 此 ， 壳 通过 计算 每 个 符号 的 位 置 可 以 创建 
args 数组 。 

ATER args 数组 ， 代 码 和 迭代 处 理 ntok 个 符号 ， 对 于 第 i 个 符号 ， 计算 下 面 的 表达 式 : 

&tokbuf[tok[i]] . 
也 就 是 说 ， 让 args [i] 等 于 tokbuf 中 的 第 i 个 符号 的 地 址 。 一 旦 args 数组 初始 化 后 ， 壳 就 调用 相应 的 
函数 来 完成 内 部 命令 。 


25.14 ”向 外 部 命令 传递 参数 

第 二 种 情况 (外 部 命令 ) 更 加 复杂 。 对 于 此 种 情况 ， 壳 创建 一 个 单独 的 进程 来 运行 命令 ， 该 进程 
可 以 运行 在 后 台 〈 比 如 ， 壳 可 以 在 后 台 运行 命令 ， 同 时 继续 读 取 和 处 理 输入 行 )。 但 问题 来 了 : 壳 应 
该 用 什么 样 的 机 制 向 进程 传递 参数 ? 壳 不 能 采用 内 部 命令 那 种 方式 来 传递 参数 ， 因 为 运行 在 后 台 的 命 
令 需要 一 份 独立 的 参数 副本 ， 这 样 就 可 以 保证 壳 继 续 处 理 其 他 命令 而 不 出 错 了 。 

有 两 种 方式 可 以 解决 外 部 命令 的 参数 传递 问题 : 壳 可 以 为 参数 申请 独立 的 内 存 来 存储 参数 ， 或 者 
也 可 以 把 参数 直接 存储 在 进程 中 已 经 申请 的 一 块 内 存 中 。 因 为 Xinu 在 进程 结束 时 ， 不 会 自动 释放 堆 内 
存 ， 所 以 第 一 种 方法 要 求 壳 记 录 为 每 个 命令 所 申请 的 内 存 ， 这 样 就 能 够 在 进程 结束 时 释放 这 些 内 存 。 
为 此 ， 我 们 选择 第 二 种 方法 : 

在 创建 了 一 个 运行 命令 的 进程 后 ， 党 将 参数 的 副本 放 在 进程 的 栈 区 域内 ， 然 后 让 进程 

运行 。 

参数 应 该 放 在 进程 栈 的 什么 位 置 呢 ?” 尽 管 可 以 重 写 create 函数 ,使 栈 项 有 空间 可 用 , 但 是 这 样 
做 也 是 很 复杂 的 。 因 此 ， 我 们 选择 使 用 栈 底 的 空间 。 壳 在 栈 中 存储 一 份 args 数组 的 副本 ， 紧 跟着 是 
tokbuf 中 字符 串 的 一 份 副本 。 当 然 ，tokbuf 中 字符 串 的 地 址 必须 赋予 args 副本 中 的 指针 。 图 25-5 说 明 
了 图 25-4 中 的 数据 如 何 分 配 到 连续 的 内 存 区 域 中 。 


Leh 
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数组 args 的 栈 的 最 低 字 节 
起 始 地 址 


图 25-5 在 进程 的 栈 中 ，args 数组 和 参数 字符 串 的 副本 
将 参数 项 复制 到 进程 的 栈 中 的 代码 并 没有 加 入 壳 中 的 ,我 们 用 了 一 个 独立 的 函数 addargs 实现 该 功 
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能 。 文 件 addargs. c 包含 下 述 代码 。 


/* addargs.c - addargs */ 


#include <xinu.h> 
#include "shprototypes.h" 


PR CPP C re 
* addargs - add local copy of argv-style arguments to the stack of 
x a command process that has been created by the shell 
Mi RV T FOU I E ETE a YT IO E LI a a I X I T i E i i i DG en a ry: 2-1 
+y 

status  addargs( 

pid32 pid, /* ID of process to use 
int32 ntok, /* count of arguments 
int32 tok[], /* index of tokens in tokbuf 
int32 tlen, /* length of data in tokbuf 
char *tokbuf, /* array of null-term. tokens 
void *dummy /* dummy argument that was 
p* used at creation and must 
fe be replaced by a pointer 
ps to an argument vector 
) 
( 
intmask mask; /* saved interrupt mask 
struct  procent *prptr; /* ptr to process' table entry 
uint32  aloc; /* argument location in process 
p* Stack as an integer i 
uint32  *argloc; /* location in process's stack 
Vai to place args vector 
char *argstr; /* location in process's stack 
"dud to place arg strings 
uint32  *search; /* pointer that searches for 
f* dummy argument on stack 
uint32  *aptr; /* walks through args array 
int32 i; /* index into tok array 


mask - disable(); 
/* Check argument count and data length */ 
if ( (ntok «- 0) |] (tlen < 0) ) ( 

restore (mask); 

return SYSERR; 


prptr = &proctab[pid]; 


/* Compute lowest location in the process stack where the 


xe args array will be stored followed by the argument 
/* strings 
aloc - (uint32) (prptr-»prstkbase 
- prptr-»prstklen + sizeof(uint32)); 
argloc = (uint32*) ((aloc + 3) & -0x3); /* round multiple of 4 


/* Compute the first location beyond args array for the strings 


argstr = (char *) (argloc + (ntok+1)); /* +1 for a null ptr 


ia 
M 


È 


Mf 
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/* Set each location in the args vector to be the address of #7 
Pi) string area plus the offset of this argument if 


for (aptr-argloc, i=0; i < ntok; i++) ( 
*aptr++ = (uint32) (argstr + tok[il); 
} 


/* Add a null pointer to the args array */ 
*aptr++ = (uint32) NULL; 


/* Copy the argument strings from tokbuf into process’s stack */ 
]* just beyond the args vector */ 


memcpy (aptr, tokbuf, tlen); 
/* Find the second argument in process's stack */ 


for (search = (uint32 *)prptr->prstkptr; 
search < (uint32 *)prptr->prstkbase; search++) { 


/* If found, replace with the address of the args vector*/ 


if (*search == (uint32)dummy) { 
*search = (uint32)argloc; 
restore (mask); 
return OK; 


} 
/* Argument value not found on the stack - report an error */ 


restore (mask); 
return SYSERR; 
) 


一 且 建 立 了 进程 ， 进 程 表 项 中 就 包括 栈 项 地 址 和 栈 大 小 。 因 为 在 内 存 中 ， 栈 向 下 增长 ， 所 以 add- 
args 通过 栈 顶 地 址 减 去 栈 大 小 就 可 以 计算 出 栈 地 址 的 最 低 内 存 地 址 。 然 而 ， 有 些 细节 使 得 代码 变 得 复 
杂 。 例 如 ， 因 为 指针 必须 字 节 对 齐 ， 所 以 addargs 计算 的 栈 的 起 始 地 址 必须 是 4 的 倍数 。 因 此 ， 最 后 一 
个 参数 字符 串 的 最 后 一 个 字 节 可 能 比 栈 的 最 低地 址 的 字 节 超出 3 个 字 节 。 而 且 ， 在 图 25-5 中 还 可 以 看 
到 ， 代 码 在 args 数组 的 最 后 加 了 一 个 空 指针 。 

addargs 中 的 大 部 分 代码 还 是 如 预期 那样 : 计算 栈 的 地 址 ， 以 栈 地 址 为 开头 复制 args 数组 和 参数 字 
符 串 到 栈 中 。 然 而 ， 最 后 一 个 for 循环 似乎 看 起 来 有 些 不 正常 : 查找 传递 到 进程 中 的 第 二 个 参数 ， 然 后 
用 args 数组 中 的 一 个 指针 来 替换 它 。 在 创建 进程 后 ， 膏 用 一 个 哑 值 作为 参数 ， 将 这 个 值 作为 dummy & 
数 传递 到 addargs 中 。 因 此 ，addargs 查找 栈 直 到 找到 这 个 值 ， 然 后 对 其 进行 替换 。 

为 什么 用 一 个 哑 参 数 ， 然 后 再 查找 该 参数 呢 ? 这 样 选 择 是 为 了 让 addargs 计算 第 二 个 参数 的 位 置 。 
尽管 直接 计算 看 起 来 更 清晰 ， 但 是 直接 计算 要 求 addargs 了 解 初始 进程 栈 的 结构 。 用 查找 的 方式 意味 着 
只 要 create 因数 知道 进程 的 细节 和 栈 的 结构 就 可 以 了 。 当 然 ， 使 用 查找 的 方式 也 有 一 个 缺点 : 壳 必 须 
选择 一 个 哑 参 数 ， 并 且 保 证 该 参数 值 不 会 在 栈 中 很 早出 现 。 我 们 的 壳 使 用 变量 tmparg 的 地 址 ， 而 不 是 
任意 一 个 整数 来 作为 哑 值 。 


25.15 IVO 重 定向 


一 旦 创建 了 进程 并 执行 命令 ,解释 器 就 会 调用 addargs 来 将 其 参数 复制 到 运行 栈 中 ， 所 有 这 些 都 是 
为 了 处 理 输 入 /和 输出 重 定 向 并 开始 进程 的 执行 。 为 了 重 定向 ZXO， 解 释 器 将 设备 描述 器 分 配 到 进程 表 项 
中 的 进程 描述 〈prdese) 队列 中 。 其 中 两 个 关键 值 是 prdese [0] 和 prdese [1], ， 分 别 被 解释 器 用 来 设 
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l 
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置 标准 输入 (stdin) 和 标准 输出 (stdout) 。 

如 何 设置 变量 stdin 和 stdout 的 值 ? 解释 器 将 它们 初始 化 为 dev， 当 调用 壳 时 ， 需 要 将 设备 描述 器 
作为 参数 传人 。 通 常 ， 设 备 CONSOLE 调用 壳 。 因 此 ， 如 果 用 户 没有 重 定向 VO， 那么 执行 命令 的 进 
程 将 “继承 ”控制 台 设备 来 进行 输入 和 输出 。 如 果 用 户 重 定 向 了 LO, ABA To AEE inname 或 out- 
name 按照 命令 行 指定 的 方式 进行 设置 。 否 则 将 inname 和 outname 设置 为 NULL。 在 为 命令 进程 分 配 
stdin 和 stdout 之 前 ， 壳 检查 inname 和 outname。 如 果 inname 是 非 空 值 ， 壳 调用 open 打开 inname 用 于 
读 ， 并 给 描述 器 设置 sdin。 类 似 地 ， 如 果 outname 是 非 空 值 ， 壳 调用 open 打开 outname 用 于 写 人 ,并 
给 描述 器 设置 stdout。 

描述 器 应 该 在 什么 时 候 关闭 ? 我 们 的 示例 代码 假设 命令 会 在 其 退出 前 关闭 它 的 标准 输入 和 标准 输 
出 描述 器 。 壳 在 命令 执行 完 后 不 会 清空 描述 器 。 强 制 所 有 命令 在 退出 前 关闭 它们 的 标准 VO 设备 有 一 
些 缺 点 ， 这 会 使 命令 难以 理解 、 难 以 正确 编程 ， 因 为 命令 需要 记得 关闭 设备 ， 即 使 代码 中 并 没有 打开 
它们 。 

壳 代码 的 最 后 部 分 是 运行 命令 进程 。 这 里 有 两 种 情况 。 为 了 在 前 台中 运行 进程 ,党 调用 resume JF 
始 这 个 进程 ， 然 后 调用 receive 等 待 进程 结束 消息 〈 当 进程 退出 时 ，kill 给 壳 发 送 一 条 消息 ) 。 对 于 在 后 
台 运 行 的 情况 ， 壳 启动 命令 进程 ， 但 并 不 等 待 。 相 反 ， 主 壳 继续 循环 ， 读 取 下 一 条 命令 。 练 习题 中 建 
议 对 代码 进行 一 定 的 修改 来 提高 正确 性 。 


25.16 ”示例 命令 函数 (sleep) 

为 了 理解 命令 进程 参数 ， 考 虑 函数 xsh_sleep， 该 函数 实现 sleep 命令 ”。sleep 会 根据 自身 参数 的 设 
定 产 生 几 秒 的 延迟 。 因 此 ， 通 过 调用 sleep 系统 函数 ， 一 行 独立 的 代码 就 可 以 实现 延迟 。 下 面 展 示 的 代 
码 仅 为 说 明 参 数 是 如 何 传递 ， 以 及 命令 函数 如 何 输出 一 条 帮助 消息 。 文 件 xsh. sleep. c 包含 了 如 下 
代码 。 

/* xsh_sleep.c - xsh_sleep */ 

#include <xinu.h> 


#include <stdio.h> 
#include <string.h> 


an à 

shellcmd xsh sleep(int nargs, char *args[]) 

{ 
int 32 delay; /* delay in seconds *4 
char *chptr; /* walks through argument By 
char ch; /* next character of argument Ef 
/* For argument '--help', emit help about the ‘sleep’ command Fy 
if (nargs == 2 && strncmp(args[1], "--help", 7) == 0) { 


printf("Use: %s\n\n", args[0]); 
printf("Description:\n"); 

printf("\tDelay for a specified number of seconds n"); 
printf("Options: n"); 

printf("\t--help\t display this help and exit\n"); 
return 0; 





O ”根据 习惯 ， 实 现 命令 X 的 函数 的 文件 被 命名 为 xsh_X。 
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/* Check for valid number of arguments */ 


if (nargs > 2) { 
fprintf(stderr, "%s: too many arguments\n", args[0]); 
fprintf(stderr, "Try '$s --help' for more information\n", 
args[0]); 
return 1; 


) 


if (nargs !- 2) ( 
fprintf(stderr, "%s: argument in error\n", args[0]); 
fprintf(stderr, "Try '$s --help' for more information Wn", 


args[0]); 
return 1; 
} ^ 
chptr - args[1]; 
ch = *chptr++; 
delay = 0; 
while (ch != NULLCH) { 
if ( (ch = "0*) || (e > 797) 34 
fprintf(stderr, "%s: nondigit in argument'n", 
args[0]); 
return 1; 


} 
delay = 10*delay + (ch - ‘0’); 
ch = *chptr++; 


} 
sleep (delay) ; 
return 0; 


} 


25.17 WA 
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的 应 用 程序 一 样 运行 ， 只 有 命令 函数 依赖 于 壳 。 因 此 ， 与 我 们 示例 一 样 ， 壳 使 用 的 参数 传递 范式 与 系 
统 其 他 部 分 有 着 显著 的 不 同 。 类 似 地 ,设计 者 可 以 在 不 影响 系统 其 他 部 分 的 情况 下 ， 选 择 输入 命令 行 
的 语法 和 语义 解释 方式 。 

也 许 壳 设 计 最 有 趣 的 地 方 来 自 对 命令 理解 能 力 的 抉择 。 一 方面 ， 如 果 壳 知道 所 有 命令 和 它们 的 参 
数 ， 壳 可 以 自动 填充 命令 名 并 检查 它们 的 参数 ， 使 实现 该 命令 的 代码 变 得 更 简单 。 男 一 方面 ， 允 许 延 
迟 绑 定 意 味 着 更 高 的 伸缩 性 ， 因 为 在 有 新 命令 产生 的 时 候 ， 壳 不 需要 进行 改变 ， 但 作为 权衡 ， 每 条 命 
令 都 必须 检查 它 自己 的 参数 。 此 外 , 在 UNIX 系统 中 ， 设 计 者 可 以 选择 将 每 个 命令 方法 编译 到 壳 中 或 
者 将 每 个 命令 作为 一 个 单独 的 文件 。 

在 我 们 的 示例 中 ， 壳 演示 了 其 设计 过 程 中 最 重要 的 原则 之 一 : 以 相对 少 的 代码 为 用 户 提供 强大 的 
抽象 。 例 如 ， 考 虑 为 实现 输入 和 输出 的 重 定向 所 需要 的 最 小 代码 量 和 识别 行 尾 符号 以 便 在 后 台 执 行 命 
令 的 请 求 所 需要 的 最 小 代码 量 。 相 比 每 条 命令 与 用 户 交互 时 都 提示 输入 和 输出 信息 或 者 询问 其 是 否 需 
要 在 后 台 运行 而 言 ，YO 重 定向 和 后 台 处 理 使 沉 变 得 更 加 强大 和 用 户 友好 。 








25.18 总 结 

REMATE (shell) 一 一 一 个 基本 的 命令 行 解释 器 。 尽 管 示例 代码 很 小 ， 但 它 支 持 并 发 命令 执 
行 、 输 入 和 输出 重 定向 ， 以 及 任意 字符 串 参 数 传递 。 其 实现 在 概念 上 分 为 两 个 部 分 : 词法 分 析 ， 用 来 
读 取 一 行文 本 并 将 字符 组 合成 词 ; 壳 函 数 ， 用 来 检查 词 的 顺序 并 执行 命令 。 

这 段 示例 代码 演示 了 用 户 接口 和 底层 系统 所 提供 设备 之 间 的 关系 。 例 如 ， 尽 管 底层 系统 支持 并 发 
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进程 ， 但 过 使 用 户 可 以 并 发 执行 进程 。 类 似 地 ， 尽 管 底层 系统 提供 打开 设备 或 文件 的 能 力 ， 但 壳 使 用 




















第 25 € 一 个 用 户 接 口 例子 : Xinu zc 





























户 可 以 进行 vo 重 定向 。 

练习 

25.1 E AE, GER] cbreak 模式 并 处 理 所 有 的 键盘 输入 。 输 入 序列 如 Control-P 会 移动 到 “前 一 条 ” 
指令 ，Control-B 和 Control- F 分 别 解释 为 向 后 和 向 前 移动 一 行 ， 可 类 比 UNIX 中 ksh 或 bash 的 实现 
He 

25.2 EHA 25-2 中 的 程序 ， 移 除 可 选 符号 [lo 

25.3 ”修改 壳 使 其 允许 内 部 命令 中 的 LO 重 定向 。 需要 做 哪些 必要 的 修改 ? 

25.4 设计 一 个 改进 版 的 create， 可 以 使 壳 处 理 字符 串 参 数 ， 在 创建 进程 时 自动 执行 相同 的 方法 ， 如 add- 
argso 

25.5 改进 壳 ， 使 其 可 以 作为 一 条 命令 使 用 。 即 允许 用 户 执行 命令 shell ， 从 而 开启 一 个 新 的 壳 进 程 。 当 子 
壳 退 出 时 ， 将 控制 权 转 移 到 原 壳 中 。 请 仔细 思考 其 中 可 能 遇 到 的 问题 。 

25.6 ”改进 壳 ， 使 其 可 以 从 文件 中 输入 例如， 允许 用 户 建立 一 个 含有 命令 的 文件 ， 之 后 启动 一 个 过 解释 
它们 )。 ' 

25.7 ”改进 壳 ， 使 其 允许 用 户 像 重 定向 标准 输出 一 样 重 定向 标准 错误 。 

25.8 阅读 UNIX 壳 中 的 过 变量 ， 并 在 Xinu 壳 中 实现 一 个 类 似 变量 机 制 。 

25.9 找 出 在 UNIX 壳 中 如 何 将 环境 变量 传递 到 命令 进程 中 ， 并 在 Xinu 壳 中 实现 一 个 类 似 机 制 。 

25.10 ”实现 内 联 输入 重 定向 ， 允 许 用 户 输入 
command << stop 
随后 的 输入 行 被 以 stop 字符 序列 开始 的 输入 终止 。 令 壳 将 输入 保存 到 临时 文件 中 ,使 用 临时 文件 

578 作为 标准 输入 来 执行 命令 。 

25.11 扩展 命令 表 使 其 包含 每 条 指令 所 需要 的 参数 的 数量 和 类 型 ， 使 这 在 传递 参数 到 命令 前 检查 它们 是 
否 是 可 行 的 。 列 出 让 壳 检 查 参 数 的 优 、 缺 点 ， 至 少 各 两 条 。 

25. 12 ”假设 设计 者 决定 在 壳 中 添加 for 声明 ， 这 样 用 户 可 以 重复 执行 如 下 指令 : 
for 1 2 3 4 5 6 7 8 9; command-line 

这 里 for 是 关键 词 ，command-line 是 与 当前 壳 可 以 接受 命令 一 样 的 命令 。 设 计 者 需要 修改 壳 的 

语法 和 解析 器 吗 ? 或 者 需要 使 for 成 为 一 个 内 部 命令 吗 ?请 解释 理由 。 

25. 13 ”为 壳 添 加 命令 扩展 ,使 用 户 可 以 通过 ESC 在 命令 中 输入 特定 的 前 级 ， 使 壳 输出 完整 的 命令 ， 并 等 
待 用 户 添加 参数 并 按 Enter 键 。 

25.14 UNIX 允许 如 下 形式 的 命令 行 : 
command 1 | command 2 | command 3 

这 里 符号 | ， 称 为 管道 〈pipe) ， 用 于 指定 一 个 命令 的 标准 输出 与 下 一 个 命令 的 标准 输入 相连 

TÉ. JJ Xin 实现 一 个 管道 设备 ， 并 改进 壳 使 其 可 以 支持 指令 管道 行 。 

25.15 KOH tty 设备 驱动 和 壳 使 其 可 以 通过 传人 CONTORL_c 杀 死 当前 的 执行 进程 。 

25.16 改进 tfy 设备 驱动 和 壳 使 其 可 以 通过 传人 CONTORL_z 停止 当前 的 后 台 执 行进 程 。 

25.17 改进 设计 使 得 内 部 命令 可 以 处 理 L/O 重 定向 和 后 台 处 理 : 如 果 需 要 重 定向 或 者 后 台 处 理 ， 像 一 般 
命令 一 样 对 待 该 命令 ， 并 创建 一 个 独立 的 进程 。 

25. 18 ”本 章 介绍 了 在 命令 退出 时 关闭 设备 描述 器 的 问题 。 改 进 系统 使 得 kill 在 进程 退出 时 自动 关闭 进程 描 
Rao . 

25.19 示例 中 的 壳 调 用 receive 来 等 待 前 台 进 程 结束 ， 但 并 未 检查 接收 的 消息 。 说 明 何 种 事件 序列 会 触发 
壳 在 前 台 进 程 结 束 前 继续 执行 。 

579] 25.20 ”改进 壳 代码 ， 修 复 之 前 练习 中 存在 的 问题 。 
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进步 ， 绝 不 是 仅 由 改变 组 成 ， 而 是 不 重复 过 去 的 错误 。 
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A1.1 引言 

在 前 面 的 章节 中 ， 我 们 介绍 了 操作 系统 的 内 部 实现 。 我 们 主要 描述 了 系统 的 抽象 ， 讨 论 了 设计 上 
的 折 中 方案 ， 说 明了 怎样 将 代码 融合 到 层级 组 织 结构 中 ， 并 且 介绍 了 实现 的 细节 问题 。 第 24 章 讲述 了 
如 何 配置 系统 以 允许 代码 可 以 在 有 多 个 外 设 的 系统 中 运行 。 

本 附录 部 分 主要 讨论 两 个 大 问题 。 第 一 ， 如 何 将 一 个 已 经 存在 的 操作 系统 移植 到 一 个 新 的 机 器 或 
者 一 个 完全 不 同 的 硬件 平台 上 。 第 二 ， 一 个 操作 系统 可 以 以 一 种 易于 移植 的 方式 来 编写 吗 ? 为 了 回答 
第 一 个 问题 ， 附 录 部 分 讨论 了 跨 平台 开发 问题 ， 并 提供 了 一 些 很 实用 的 意见 。 为 了 回答 第 二 个 问题 ， 
附录 将 讨论 一 些 可 以 提升 操作 系统 可 移植 性 的 技术 。 


A1.2 动机 : 硬件 的 演化 

尽管 设计 操作 系统 需要 抓 住 高 层 抽象 、 设 计 有 效 的 机 制 、 理 解 小 的 细节 ， 但 是 对 操作 系统 的 设计 
者 来 说 ， 他 们 面临 的 最 大 挑战 不 是 源 于 某 些 知 识 上 的 困难 。 挑 战 主要 源 于 技术 的 频繁 更 新 ， 以 及 随 之 
而 来 的 供应 商 为 了 生产 新 的 产品 ， 或 者 在 已 有 的 产品 中 添加 新 的 特性 而 产生 的 经 济 压力 。 例 如 ， 在 开 
始 修订 本 书后 的 14 个 月 时 间 里 ， 硬 件 供应 商 就 两 次 改变 了 模型 ， 而 且 这 种 改变 很 引 人 注 目 一 一 处 理 吉 
芯片 、 指 令 集 、 存 储 器 结构 和 IO 设备 全 都 发 生 了 变化 。 

因为 操作 系统 是 与 底层 硬件 直接 交互 的 ， 所 以 即使 硬件 只 有 很 小 的 变化 ， 也 会 对 系统 产生 很 大 的 
影响 。 例 如 ， 如 果 硬 件 供 应 商 改 变 硬 件 以 便 给 闪存 (Flash ROM) 预 留 一 片 内 存 地 址 空间 ， 那 么 操作 
系统 中 的 内 存 管理 软件 必须 做 相应 的 修改 。 尽 管 这 些 修改 可 能 不 是 直接 的 ,但 是 可 能 涉及 页 表 、 与 
MMU 硬件 进行 交互 的 代码 和 按 需 分 配 内 存 的 代码 。 如 果 内 存 地 址 空间 的 大 片 地 址 都 被 用 于 预 留 ， 则 操 
作 系 统 就 需要 改变 它 的 地 址 分 配 策略 。 这 里 的 要 点 是 : 

因为 技术 和 经 济 上 的 某 些 因素 引发 硬件 不 断 更 新 ， 所 以 操作 系统 的 设计 人 员 必 须 做 好 将 
系统 移植 到 新 的 平台 上 的 准备 。 


A1. 3 操作 系统 移植 的 步骤 

无 论 硬件 如 何 变化 ， 移 植 一 个 已 有 的 操作 系统 到 一 个 新 的 平台 上 比 从 头 开始 设计 和 构造 一 个 新 的 
系统 简单 。 特 别 是 ， 在 操作 系统 是 用 高 级 语言 实现 的 情况 下 ， 移 植 这 个 系统 到 一 个 新 的 平台 是 非常 简 
单 的 ， 因 为 编译 器 能 做 大 部 分 的 工作 。 

以 Xin 做 参考 ， 它 的 大 部 分 代码 都 是 用 C 实现 的 。 如 果 在 新 的 平台 上 能 够 运行 C 编译 器 ， 那 么 
它 的 源 代码 中 的 许多 函数 不 需要 修改 就 能 编译 。 对 于 那些 处 理 基本 数据 结构 的 函数 ， 如 整 型 、 字 符 、 
数组 和 结构 体 ， 在 不 需要 修改 代码 的 情况 下 ， 编译 器 就 能 编译 ,并且 生成 的 二 进 制程 序 可 以 正确 运 
行 。 即 使 在 需要 更 改 的 情况 下 ， 源 代码 也 只 需要 修改 很 少 的 部 分 〈( 比 如， 编译 器 之 间 的 不 同 所 造成 
的 调整 ) 。 

用 高 级 编程 语言 实现 的 操作 系统 (如 C)， 比 用 汇编 语言 实现 的 系统 更 容易 移植 到 新 的 平 

SEs 

假设 一 个 操作 系统 是 使 用 C 语言 实现 的 ， 我们 来 考虑 将 其 移植 到 新 平台 上 的 步骤 。 特 别 地 ， 图 
Al-1 列 出 了 移植 Xinu 的 步骤 。 
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步骤 描述 
1 学 习 新 硬件 的 知识 

2 创建 交叉 开发 工具 

3 学 习 编 译 器 的 调用 规则 

4 创建 引导 机 制 





5 设计 一 个 基本 的 轮 询 输 出 函数 
6 加 载 和 运行 一 个 串 行 程序 

7 | 移植 和 测试 基本 内 存 管理 器 
8 

9 











重 写 上 下 文 切换 和 进程 创建 函数 
移植 和 测试 剩余 进程 管理 器 函数 


























10 创建 一 个 中 断 调度 器 _| 
Il a 移植 和 测试 实时 时 钟 函数 

12 移植 和 测试 tty 驱动 

13 为 其 他 设备 要 么 移植 要 么 创建 驱动 

14 只 要 磁盘 可 用 ， 移 植 文件 系统 

15 只 要 网 络 驱 动 可 以 工作 ， 移 植 协议 软件 














16 移植 沉 或 者 其 他 应 用 程序 
图 Al-1 移植 Xinu 到 一 个 新 平台 所 需要 的 步 又 


注意 ， 表 ALA 所 列 出 来 的 步骤 和 Xinu 操作 系统 层次 结构 之 间 的 关系 。 本 质 上 ， 移 植 和 设计 操作 
系统 在 模式 上 是 一 样 的 : 低层 次 的 结构 先 移 植 ， 然 后 是 高 层次 的 结构 。Al1. 3. 1 节 将 重点 介绍 每 一 步 。 


A1. 3. 1 学 习 新 硬件 的 知识 和 编译 


ERI 可 能 看 起 来 很 直接 、 很 简单 。 不 幸 的 是 ， 有 些 供 应 商 不 愿意 暴露 他 们 商业 硬件 和 软件 的 细 
节 。 即 使 对 于 通用 信息 〈 比 如 ， 处 理 器 指令 集 ) ， 供 应 商 仍 会 选择 将 某 些 细节 保密 〈 比 如 ， 总线 地 址 
空间 的 映射 、 硬 件 初始 化 顺序 ， 或 者 设备 的 细节 ) 。 尽 管 如 此 ,在 此 附录 接 下 来 的 部 分 ， 我 们 仍然 假设 
这 些 需要 的 信息 是 可 以 得 到 的 。 


A1.3.2 WHE 


如 果 需 要 移植 操作 系统 的 硬件 平台 已 经 有 了 一 个 可 以 运行 的 、 具 有 完整 功能 的 操作 系统 ， 那 么 步 
PRA ~6 都 是 可 以 跳 过 的 , 我们 可 以 利用 当前 已 经 存在 的 机 制 编译 和 启动 一 个 新 的 系统 。 但 是 ， 在 大 部 
分 的 情况 下 ， 目 标 平台 都 是 新 的 ， 而 且 可 能 缺少 一 个 生产 系统 所 需要 的 能 力 ， 这 使 得 操作 系统 设计 者 
经 常 能 在 目标 平台 上 开发 。 在 这 种 情况 下 ， 设 计 者 使 用 一 种 交叉 开发 的 方法 ， 利 用 编译 器 和 链接 器 来 
生成 目标 平台 上 的 代码 ， 而 开发 工具 则 运行 在 一 个 常规 的 计算 机 上 。 

有 一 种 广泛 应 用 的 交叉 开发 环境 是 由 GNUC 编译 器 (GNUCCompiler) gee 组 成 。gce 可 以 从 以 下 网 
址 免费 下 载 和 使 用 : 





http://gcc. gnu. org 
FRI gcc 的 源 代 码 之 后 ， 程 序 员 必须 选择 某 些 配置 选项 来 指定 所 需 的 细节 ， 如 目标 处 理 器 类 型 和 目 
标 机 器 的 字 节 顺序 。 程 序 员 运行 UNIX 工具 程序 make， 创 建 编译 器 、 汇 编 器 和 链接 器 ， 进 而 为 目标 机 
器 生成 代码 。 


A1.3.3 调用 规则 
函数 调用 是 操作 系统 移植 的 一 个 重要 方面 。 例 如 ， 为 了 建立 上 下 文 切换 机 制 ， 程 序 员 必须 精确 地 
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理解 相关 函数 调用 的 所 有 细节 。 尽 管 硬件 设计 者 的 工作 已 经 包含 了 子 函 数 的 调用 机 制 ， 但 是 对 于 程序 
员 来 说 ， 理 解 硬 件 并 不 够 ， 他 们 还 必须 要 应 付 编译 器 带 来 的 附加 需求 。 

使 用 开源 编译 器 时 调用 规则 可 能 是 显而易见 的 。 但 是 ， 操 作 系 统 的 设计 者 需要 了 解 各 种 特例 的 信 
息 ， 而 这 在 实际 代码 中 是 很 难 找到 的 。 幸 运 的 是 ， 这 些 信息 可 以 在 网 络 上 找到 。 


A1.3.4 引导 机 制 

在 编译 和 链接 之 后 ， 程 序 映像 必须 下 载 到 目标 机 器 上 。 早 期 的 谋 入 式 硬 件 要 求 将 映像 刻录 在 光盘 
上 ， 再 把 光盘 插 在 插 档 上 。 幸 运 的 是 ， 现 代 系 统 使 用 了 一 些 不 那么 费力 的 可 选 机 制 。 在 一 般 情 况 下 ， 
硬件 包含 的 引导 功能 包括 从 光盘 中 读 取 上 映像、 从 控制 台 串 行 线路 接收 映像 和 通过 网 络 下 载 映 像 。 不 过 ， 
引导 的 步骤 不 被 一 般 人 知道 。 

以 Linksys E2100L 无 线路 由 器 为 例 ， 访 问 引导 装载 程序 不 大 可 能 ， 除 非 你 打开 包装 盒 ， 连 接 上 一 
个 串 行 线路 ， 并 在 启动 序列 的 过 程 中 通过 串 行 线路 发 送 字符 。 只 要 正常 的 引导 序列 被 中 断 ， 引 导 装 载 
程序 就 会 显示 一 个 提示 ， 提 供 许多 可 以 下 载 映像 的 途径 ( 比如， 通过 控制 台 串 行 线路 可 以 下 载 多 种 格 
式 的 映像 ， 还 有 通过 以 太 网 接口 下 载 网 络 引导 映像 等 ) 。 无 论 选 择 哪 种 方法 ， 找 到 一 种 方法 将 映像 的 备 
份 放 到 目标 机 器 的 内 存 中 都 是 必要 的 。 


A1. 3. 5 ” 轮 询 输出 

移植 操作 系统 的 下 一 步 需 要 程序 员 设计 一 种 方法 用 来 运行 输出 字符 的 程序 。 在 某 些 基 本 输入 /输出 
设备 可 用 之 前 ， 程 序 员 都 必须 在 没有 提示 的 情况 下 工作 ， 只 能 寄 希 望 于 映像 成 功 下 载 并 开始 。 所 以 ， 
基本 的 输入 /输出 是 非常 宝贵 的 ; 一 旦 基本 输入 /输出 可 用 ， 程 序 员 就 可 以 很 快 地 判断 程序 运行 到 哪里 ， 
而 且 能 很 快 地 找到 问题 所 在 。 

因为 早期 的 测试 程序 并 没有 包含 中 断 处 理 ， 所 以 基本 输入 /输出 必须 使 用 轮 询 机 制 。 即 程序 员 创建 
一 种 类 似 于 kpute 的 方法 ， 用 来 等 待 输入 /输出 设备 准备 好 的 时 候 传输 字符 。 两 边 的 终端 都 必须 在 某 些 
细节 上 (如 波 特 率 和 每 个 字符 的 位 数 ) 保持 一 致 。 如 果 不 这 样 做 的 话 ， 就 会 使 程序 员 的 调试 过 程 变 得 
宛 长 而 低 效 。 为 了 简化 代码 ，kpute 的 第 一 个 版 本 可 以 通过 汇编 语言 来 实现 ， 并 且 可 以 将 设备 的 某 些 信 
息 〈 比 如 ， 控 制 和 状态 寄存 器 的 地 址 和 波 特 率 ) 直接 写 在 程序 中 。 


A1.3.6 串 行程 序 的 执行 

一 旦 一 个 映像 可 以 下 载 并 且 运 行 ， 那么 下 一 步 就 是 建立 可 以 运行 串 行 程序 的 环境 。 特 别 地 ， 一 个 
C 程序 的 成 功 运行 需要 正确 的 内 存 访问 机 制 设置 (程序 的 文本 可 以 读 ， 而且 数 据 的 位 置 可 以 被 读 出 和 
BA) 和 一 个 运行 时 的 栈 (这 是 函数 调用 所 需要 的 )。 

初始 化 这 个 环境 可 能 看 起 来 很 简单 ， 但 是 它 需 要 知道 许多 硬件 的 细节 。 例 如 ， 在 E2100L E, 物理 
内 存 是 在 地 址 空间 中 复制 的 。 为 了 给 一 个 高 的 物理 内 存 地 址 分 配 栈 指针 ， 仅 仅 确 定 某 个 特定 地 址 是 可 
用 的 是 不 够 的 ， 你 还 得 明白 每 个 地 址 是 怎样 与 物理 地 址 相对 应 的 。 


A1.3.7 基本 的 内 存 管理 

一 旦 内 存 的 分 布 知道 了 ， 并 且 串 行程 序 可 以 下 载 和 运行 在 目标 硬件 上 ， 那 么 程序 员 就 可 以 移植 和 
测试 4 个 基本 的 内 存 管理 函数 : getmem freemem, getstk 和 freestk。 另 外 ， 对 于 基本 的 分 配 内 存 和 释放 
内 存 程序 ， 程 序 员 需 要 专注 在 地 址 空间 中 的 对 齐 上 。 有 些 硬件 平台 要 求 所 有 的 内 存 访问 是 字 对 齐 的 ， 
而 另 一 些 则 不 需要 。 在 需要 对 齐 的 机 器 上 ， 程 序 员 应 该 保证 内 存 释放 链表 以 一 种 能 使 对 齐 正常 工作 的 
方式 被 初始 化 〈 例 如 ， 所 有 分 配 的 块 都 从 适当 的 边界 上 开始 ) 。 


A1.3.8 进程 创建 和 上 下 文 切换 
一 旦 基本 的 内 存 管理 工作 以 后 ， 程 序 员 就 可 以 开始 移植 进程 管理 函数 了 。 特 别 地 ， 程 序 员 可 以 开 
始 移植 上 下 文 切换 、 调 度 和 进程 创建 函数 。 这 三 个 基本 进程 管理 函数 的 移植 成 功 ， 是 整个 移植 过 程 的 
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重大 步 又 : 与 串 行程 序 不 同 ， 这 时 已 经 形成 了 操作 系统 的 雏形 ， 它 能 够 支持 并 发 执行 。 

这 一 步骤 有 两 个 困难 的 部 分 。 创 建 一 个 进程 的 保存 信息 需要 了 解 关 于 机 器 状态 和 上 下 文 切换 操作 
的 错综复杂 的 信息 。 而 建立 上 下 文 切换 机 制 是 一 个 难点 ， 因 为 它 需要 寻找 一 种 能 保存 当前 进程 的 所 有 
状态 信息 ， 并 且 重 新 加 载 另 一 个 进程 的 所 有 状态 信息 的 方法 。 另 外 在 保存 备份 的 时 候 ， 忽 略 掉 细 节 或 
者 不 经 意 间 破坏 状态 信息 很 容易 发 生 ( 比如 ， 更 改 一 个 寄存 器 )。 这 让 调试 变 得 极度 地 困难 ， 因 为 错 
误 可 能 隐藏 到 在 系统 尝试 重新 加 载 存储 的 状态 信息 时 。 


A1.3.9 同步 和 其 他 的 进程 管理 函数 

一 旦 进程 创建 、 调 度 和 上 下 文 切换 正常 工作 ， 那 么 其 他 的 进程 管理 函数 就 可 以 很 简单 地 添加 进来 。 
信号 量 函数 和 消息 传递 函数 都 可 以 移植 和 测试 了 。 除 了 上 下 文 切换 外 ， 大 部 分 的 进程 管理 函数 都 不 依 
赖 于 硬件 。 当 然 ， 各 个 数据 结构 都 可 能 会 发 生 改 变 ， 而 这 依赖 于 最 下 层 的 硬件 。 例 如 ， 当 将 操作 系统 
从 32 位 移植 到 64 位 的 机 器 时 ，msg32 这 个 数据 类 型 可 能 会 改变 为 msg64。 无 论 如 何 ， 移 植 信号 量 函 数 
和 消息 传递 函数 都 是 一 个 相对 比较 简单 的 任务 。 


A1.3.10 中断 调 度 和 实时 时 钟 

移植 过 程 中 ， 最 大 的 硬件 阻拦 来 自 中 断 。 创 建 一 个 中 断 调度 需要 对 硬件 有 一 个 细致 的 了 解 。 处 理 
器 、 协 处 理 器 和 总 线 是 怎样 交互 的 ? 当中 断 发 生 的 时 候 硬件 保存 的 是 什么 状态 信息 ? 什么 状态 信息 是 
操作 系统 要 求 保存 的 ? 调度 器 怎么 样 判定 哪个 设备 发 生 了 中 断 ? 在 中 断 结 束 的 时 候 ， 调 度 器 又 怎样 回 
到 原来 运行 的 程序 ? 什么 地 址 用 于 总 线 和 设备 ? 

中 断 细 节 的 实现 非常 微妙 。 在 许多 机 器 上 ， 输 入 /输出 都 是 内 存 映 射 的 ， 输 入 /输出 设备 〈 也 许 还 
有 总 线 硬 件 ) 被 映射 到 特定 的 地 址 。 而 为 了 访问 到 输入 /输出 设备 ， 操 作 系统 可 能 需要 禁用 或 者 避免 使 
用 内 存 缓存 ， 因 为 输入 /输出 必须 访问 底层 的 硬件 而 不 是 缓存 。 

在 任何 情况 下 , 一 旦 中 断 调度 移植 成 功 ， 就 需要 一 个 例子 来 测试 这 个 机 制 。 首 先 测试 实时 时 钟 合 
乎 逻辑 。 在 某 些 系 统 上 ， 首 先 建立 实时 时 钟 处 理 程序 是 必需 的 ， 因 为 时 钟 不 能 停止 。 如 果 系 统 启用 了 
中 断 ， 那 么 时 钟 中 断 将 会 出 现 。 时 钟 中 断 意味 着 进程 可 以 调用 sleep( ) 来 延迟 一 段 特定 的 时 间 和 使 时 间 
切片 有 效 。 


A1. 3. 11 tty 设备 驱动 

时 钟 中 断 和 其 他 设备 不 同 ， 因 为 其 没有 输出 。 串 行 线路 可 能 是 同时 拥有 输入 和 输出 功能 的 最 简单 
的 设备 (有些 硬件 将 输入 和 输出 中 断 处 理 分 开 )。 因 此 ，tty 驱动 需要 同时 测试 输入 和 输出 ， 保 证 所 有 
的 基本 中 断 处 理 正 常 运行 。 

幸运 的 是 ， 大 部 分 系统 都 包含 了 单行 线路 ， 并 且 许 多 都 使 用 相同 的 UART 硬件 。 因 此 ，tty 驱动 的 
许多 代码 (包括 下 半 部 )。 都 可 以 简单 地 重新 编译 和 使 用 。 而 步骤 5 中 的 基本 设备 参数 都 可 以 适当 地 添 
加 到 设备 转换 表 或 者 下 半 部 分 中 。 


A1.3.12 ”其 他 的 输入 输出 软件 和 设备 驱动 
一 旦 输入 和 输出 通过 了 测试 ， 更 复杂 的 设备 驱动 就 可 以 移植 进来 ， 如 使 用 DMA 的 设备 比如， 磁 
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盘 和 网 络 接口 ) 。 


A1. 3. 13 ”文件 系统 

对 于 可 用 的 磁盘 驱动 ， 移 植 一 个 基本 的 文件 系统 是 直接 简单 的 。 建 议 第 一 步 移植 和 测试 那些 能 读 
和 写 索引 块 的 函数 ;第 二 步 移植 和 测试 那些 建立 索引 块 和 数据 块 的 代码 。 一 旦 基本 的 操作 就 位 ， 就 可 
以 将 目录 添加 进来 ， 而 整个 文件 系统 也 可 以 开始 测试 了 。 
A1. 3. 14 ”协议 软件 

对 于 基本 的 网 络 设备 驱动 ， 我 们 可 以 通过 传输 和 接收 未 加 工 的 数据 包 来 进行 测试 ( 比如， 在 以 太 
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网 上 ) 。 但 请 注意 ， 测 试 网 络 连通 性 和 加 载 时 的 性 能 经 常 需要 在 高 层次 的 协议 软件 上 进行 ， 至 少 在 互联 


网 协议 和 用 户 数据 报 文 协 议 上 。 在 用 户 数据 报 协议 就 位 后 ， 程 序 员 就 可 以 在 通用 系统 上 运行 一 个 发 送 
和 接收 数据 包 的 应 用 程序 。 


A1. 3. 15” 壳 和 应 用 程序 
一 旦 系统 可 以 运行 了 ， 最 后 的 一 步 就 是 移植 一 个 壳 和 其 他 通用 的 程序 。 


A1.4 适应 变化 的 编程 
操作 系统 的 设计 者 怎么 样 才能 和 不 断 的 变化 做 斗争 ?他 们 能 够 预期 未 来 的 硬件 吗 ? 一 个 系统 能 否 
设计 和 实现 得 适应 未 来 的 变化 ? 设计 者 在 这 些 问 题 上 花费 了 数 十 年 。 大 部 分 的 早期 操作 系统 都 是 针对 
特定 硬件 来 设计 ， 并 且 是 用 汇编 语言 实现 的 ， 且 每 个 系统 都 从 头 开始 设计 和 生成 。 当 输入 /输出 设备 
(例如 ， 磁 盘 ) 和 操作 系统 抽象 (例如 ,文件 ) 实现 了 标准 化 后 ， 从 头 开 始 设计 一 个 新 的 系统 变 得 比 
修改 现 有 操作 系统 更 加 耗 时 费力 。 现 在 ， 先 进 的 操作 系统 采用 两 种 技术 来 适应 改变 : 
。 编译 时 (compile time): 编写 能 生成 不 同 版 本 的 源 代码 。 
e 运行 时 (run-time); 允许 操作 系统 动态 地 改变 。 
编译 时 ”使 系统 具有 适应 性 的 一 种 方法 是 ,使 用 条 件 编译 编写 源 代码 ， 这 样 能 够 使 给 定 的 源 程序 
在 多 个 系统 上 执行 。 举 一 个 简单 的 例子 ， 考 虑 实现 一 个 既 能 在 拥有 实时 时 钟 的 硬件 上 运行 ， 又 能 在 没 
有 实时 时 钟 的 硬件 上 运行 的 操作 系统 。 程 序 员 可 以 根据 硬件 利用 C. 预 处 理 器 来 条 件 性 地 编译 源 代码 。 
例如 ， 如 果 预 处 理 器 变量 RT_CLOCK 已 经 定义 ,那么 使 用 了 实时 时 钟 的 函数 就 按照 通用 情况 进行 编 
译 。 其 他 情况 下 ， 依 赖 于 时 钟 的 函数 就 会 被 报告 错误 的 版 本 替换 掉 。 在 第 13 章 中 的 sleep 函数 可 以 用 
来 阐述 这 种 概念 。 为 了 适应 这 两 种 情况 ，sleep 代码 可 以 写成 下 面 的 形式 : 
scall slee 
a delay /* time to delay in seconds */ 
) 
{ 
#ifdef RT_CLOCK 
if (delay > MAXSECONDS) ( 
return(SYSERR); 
LENTA 
return OK; 
#else 
return SYSERR; 
#endif 
} 
如 果 常 量 RT_CLOCK 已 经 定义 ， 那 么 C 预 处 理 器 就 按照 第 13 章 所 述 生 成 源 代码 。 如 果 RT_CLOCK 
BAKE, IBA C 预 处 理 器 将 会 去 掉 sleep 函数 的 大 部 分 ， 只 生成 一 行 源 代 码 : 
return SYSERR; 
条 件 编译 的 主要 优势 在 于 高 效 性 : 与 运行 时 进行 测试 判断 不 同 ， 生 成 的 源 代码 实际 上 是 为 指定 的 硬 
件 量 身 定 做 的 ， 这 样 的 系统 并 没有 包含 不 会 被 使 用 的 代码 〈 这 一 点 在 戏 入 式 系统 中 是 非常 重要 的 ) 。 
运行 时 最 简单 的 增加 运行 时 可 移植 性 的 方法 就 是 使 用 条 件 执行 。 当 操作 系统 启动 的 时 候 ， 它 先 
收集 硬件 相关 的 信息 ， 并 将 其 封装 在 一 个 全 局 数据 结构 中 ， 而 这 个 全 局 数据 结构 中 的 某 个 布尔 变量 可 
能 指定 这 个 硬件 是 否 拥有 实时 时 钟 。 每 个 操作 系统 函数 都 先 询问 这 个 全 局 数据 结构 ， 然 后 按照 得 到 的 
信息 采取 相应 行动 。 这 种 方法 的 最 大 优势 就 在 于 通用 性 一 一 映像 可 以 在 不 经 过 重新 编译 的 情况 下 在 新 
硬件 上 运行 。 
现在 ， 此 种 动态 适应 方法 一 般 是 将 操作 系统 分 成 两 个 部 分 : 一 个 包含 基本 进程 管理 函数 的 微 核 
(microkernel) 和 一 系列 扩展 功能 的 动态 加 载 模块 。 在 理论 上 ， 移 植 一 个 微 核 到 一 个 新 的 环境 下 比 直接 
移植 整个 系统 简单 ， 因 为 这 个 移植 过 程 可 以 一 块 一 块 地 完成 。 即 先 移植 微 核 ， 然 后 移植 所 需要 的 模块 。 
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A1.5 总 结 


由 于 硬件 一 直 在 发 生变 化 ， 所 以 系统 的 移植 性 是 非常 重要 的 。 移 植 一 个 操作 系统 到 一 个 新 环境 下 
的 步骤 与 初始 系统 设计 的 模式 是 一 样 的 : 先 移 植 低层 次 的 系统 ， 然 后 移植 系统 中 的 高 层次 部 分 。 

有 一 些 办 法 可 以 提高 操作 系统 代码 的 移植 性 。 运 用 条 件 性 编译 的 编译 时 方法 具有 最 高 的 效率 。 而 
运用 条 件 性 执行 的 运行 时 方法 允许 映像 运行 在 多 种 版 本 的 平台 上 。 





| 附录 2 


Operating System Design: The Xinu Approach ，Linksys Version 


Xinu 设计 注解 





A2.1 引言 


本 附件 包含 一 系列 非 正规 的 关于 Xinu 的 特点 和 基本 设计 的 注解 。 这 些 注解 并 不 是 教程 ， 也 不 是 关 
于 这 个 系统 的 完整 描述 。 相 反 ， 它 们 只 是 关于 这 些 特性 和 功能 的 简明 总 结 。 


A2.2 概括 
嵌入 式 的 范式 ”由 于 租 入 式 系 统 的 需要 ，Xinu 遵循 交叉 开发 范式 。 程 序 员 使 用 常规 的 计算 机 (一 
般 是 使 用 一 种 UNIX 操作 系统 ， 例 如 Linux) 来 编写 、 编 辑 、 交 叉 编译 和 交叉 链接 Xinu 软件 。 交 又 开发 
软件 的 输出 结果 就 是 一 个 内 存 中 的 映像 。 一 旦 这 种 映像 被 创建 ， 程 序 员 需 要 将 它 下 载 到 目标 系统 上 
(通常 是 通过 计算 机 网 络 ) 。 最 后 ， 程 序 员 启 动 运行 在 目标 系统 上 的 这 个 映像 。 
源 代码 组 成 ”Xinu 软件 源 代 码 由 少量 的 、 遵 循 UNIX 系统 组 织 风 格 的 目录 构成 。 与 将 每 个 模块 的 
所 有 文件 放 在 一 个 单独 目录 相反 ， 所 有 文件 只 是 被 分 组 到 少量 的 几 个 目录 中 。 例 如 ， 所 有 的 include X: 
件 放 在 一 个 目录 下 ， 所 有 构成 kermel 的 源 代 码 放 在 另 一 个 目录 中 。 不 过 设备 驱动 代码 例外 ， 每 个 设备 
驱动 代码 文件 放 在 以 这 个 设备 类 型 命名 的 子 目录 中 。 这 些 目录 组 织 如 下 : 
compile 包含 编译 和 链接 一 个 映像 所 需 指 令 的 Makefile。 
include 所 有 的 include 文件 。 


config 配置 程序 的 代码 以 及 生成 和 安装 conf. h 和 conf. c 的 Makefile。 

system Xinu kernel 函数 的 源 代 码 。 

devices 设备 驱动 的 源 代 码 ， 每 个 设备 类 型 分 到 一 个 子 目 录 中 。 

tty tty 驱动 的 源 代码 。 

às 远程 文件 访问 系统 的 源 代码 ， 包 括 主 远程 文件 系统 设备 和 远程 文件 伪 设 备 。 
ether 以 太 网 驱动 的 源 代 码 。 


A2.3 Xinu 设计 注解 


Xinu 特性 ”下面 是 Xinu 实现 中 需要 的 注意 事项 : 

系统 支持 多 个 并 发 进程 。 

每 个 进程 通过 它 的 进程 D 识别 。 

进程 ID 是 进程 表 中 的 索引 。 

系统 包含 信号 量 。 

每 个 信号 量 通 过 它 的 了 D 识别 ,这 个 ID 是 信号 量 表 中 的 索引 。 

系统 支持 实时 时 钟 ， 用 于 同等 优先 级 进程 之 间 的 循环 调度 和 计时 延迟 。 

给 每 个 进程 分 配 一 个 优先 级 ， 用 在 进程 调度 中 。 进 程 优先 级 是 可 以 动态 修改 的 。 
系统 支持 多 个 输入 /输出 设备 ， 也 支持 多 种 输入 /输出 设备 。 

系统 包含 一 系列 不 依赖 于 设备 的 输入 /输出 原 语 。 

控制 台 设备 使 用 uy 抽象 ， 在 这 个 抽象 中 ， 字 符 在 输入 和 输出 队列 中 。 

tty 驱动 支持 多 种 模式 ; cooked 模式 包含 字符 回 显 、 删 除 、 回 退 等 。 

系统 包含 一 个 可 以 发 送 和 接收 以 太 网 数据 包 的 以 太 网 驱动 ， 这 个 驱动 使 用 DMA 技术 。 
Xin 包含 一 个 本 地 文件 系统 ， 它 支持 在 没有 预 分 配 空间 的 情况 下 的 并 发 增长 ， 该 本 地 文件 系 
统 只 拥有 一 个 单一 层次 的 目录 结构 。 
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Xinu 还 包含 了 一 种 允许 通过 远程 服务 器 访问 服务 器 上 文件 的 机 制 。 

系统 包含 一 种 用 于 进程 间 通 信 的 消息 传递 机 制 ; 每 个 消息 只 有 一 个 字 长 。 

进程 是 动态 的 。 进 程 可 以 被 创建 、 挂 起 、 重 启 或 终止 。 

Xinu 包含 一 个 低层 次 的 用 于 分 配 和 释放 堆 区 域 和 进程 栈 的 内 存 管 理 器 ， 和 一 个 高 层次 的 用 于 
创建 缓冲 区 池 的 内 存 管理 器 。 这 个 缓冲 区 池 包 含 了 一 系列 固定 大 小 的 缓冲 区 。 

。 Xinu 包含 一 个 配置 程序 ， 能 够 根据 指定 的 信息 生成 Xinu 系统 。 这 个 配置 程序 允许 用 户 选择 一 
系列 的 设备 并 设置 系统 参数 。 


A2.4 Xinu 实现 


函数 和 模块 ”系统 的 源 代码 由 一 系列 函数 组 成 。 一 般 情 况 下 ， 每 个 文件 对 应 于 一 个 系统 调用 ( 例 
如 ， 文件 resume. c 包含 系统 调用 resume) 。 除 了 系统 调用 函数 外 ,文件 还 可 能 包含 系统 调用 所 需要 的 
实用 函数 。 其 他 的 文件 都 列 在 下 面 : 

Configuration ”一 个 包含 了 设备 信息 和 描述 系统 和 硬件 常量 的 文本 文件 。config 程序 使 用 文件 Con- 

figuration 作为 输入 ， 生 成 conf. c FI conf. hs 

conf. h 由 config 程序 生成 ， 它 包含 声明 和 定义 输入 /输出 设备 的 名 字 常 量 ， 例 如 CONSOLE, 

conf. c 由 config 程序 生成 ， 它 包含 设备 转换 表 的 初始 化 信息 。 

kernel. h 贯穿 整个 kernel 核 使 用 的 通用 符号 常量 和 类 型 声明 。 

prototypes. h “所 有 系统 函数 的 原型 声明 。 

xinu. h 主要 的 include 文件 ， 以 正确 的 顺序 包含 所 有 的 头 文件 。 大 部 分 的 Xinu 函数 只 需要 

包含 xinu. hs 

process. h 进程 表 表 项 结构 声明 ， 状 态 常量 。 

semaphore. h ”信号 量 表 表 项 结构 声明 ， 信 号 量 常量 。 

tty. h uy 线路 规程 控制 块 、 缓 冲 区 。 

bufpool. h 缓冲 区 池 常 量 和 格式 。 

memory. h 低层 次 内 存 管理 使 用 的 常量 和 结构 。 

ports. h 高 层次 进程 间 通 信 机 制 的 定义 。 

sleep. h 实时 时 钟 延迟 函数 的 定义 。 

queue. h 通用 的 进程 队列 处 理 函数 的 声明 和 常量 。 

resched. c 选择 下 一 个 进程 运行 的 Xinu 调度 器 ; resched 需要 调用 上 下 文 切换 程序 ctxsw。 

etxsw. S 从 一 个 执行 中 的 进程 切换 到 另 一 个 进程 的 上 下 文 切换 功能 。 它 包含 一 小 段 汇 编 代 

码 ， 这 段 汇编 代码 用 了 一 点 儿 技 巧 : 当 进 程 的 状态 信息 处 于 保存 状态 时 ， 进 程 重新 
启动 的 执行 地 址 就 是 紧 跟着 ctxsw 的 指令 地 址 。 

initialize. c ”通用 的 初始 化 代码 和 空 进程 (进程 0) 的 代码 。 

userret. c 当 进 程 退出 时 进程 返回 到 的 函数 。userret 从 来 不 会 返回 。 


A2.5 主要 的 概念 和 实现 

进程 状态 "每 个 进程 在 它 的 进程 表 表 项 中 都 有 一 个 prstate 字段 用 于 存储 其 状态 。 定 义 进程 状态 信 
息 的 常量 拥有 PR_xxxx 这 样 一 种 形式 。 其 中 ，PR_FREE 意味 着 进程 表 项 并 没有 被 利用 。PR_READY 意 
味 着 进程 在 准备 链表 中 ， 可 以 被 CPU 调用 。PR_WAIT 意味 着 进程 正在 等 待 着 信号 量 (由 prsem 提供 ) 。 
PR_SUSP 意味 着 进程 处 在 挂 起 状态 ， 这 时 它 不 在 任何 一 个 链表 中 。PR_SLEEP 意味 着 进程 在 睡眠 进程 
的 队列 中 ， 在 超时 后 将 会 被 唤醒 。PR_CURR 意味 着 进程 正在 运行 。 正 在 运行 的 进程 不 在 准备 链表 中 。 
PR_RECV 意味 着 进程 阻塞 正在 等 待 接收 信息 的 状态 。PR_RECTIM 是 定时 阻塞 等 待 ， 当 计时 器 超时 或 
者 信息 到 达 的 时 候 ， 无 论 哪个 先 发 生 ， 它 都 会 醒 来 。 

信号 量 信号 量 位 于 数组 semtab 中 。 数 组 中 的 每 个 元 素 对 应 一 个 信号 量 ， 每 个 信号 量 拥有 一 个 计 
数值 (scount) 和 状态 信息 〈sstate) 。 如 果 信 号 量 槽 没有 被 赋值 ， 那 么 其 状态 是 S_FREE; 否则， 就 是 
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S_USED。 如 果 这 个 计数 值 是 负 已， 那么 信和 号 量 表 中 表 项 的 头 和 尾 指向 等 待 该 信号 量 的 尸 个 进程 组 成 先 
进 先 出 队列 的 头 和 尾 。 如 果 这 个 计数 值 是 非 负 尸 ， 那 么 没有 进程 正在 等 待 

阻塞 的 进程 ”无 论 哪 种 原因 造成 阻塞 的 进程 都 不 会 有 使 用 CPU 的 资格 。 任 何 阻塞 当前 运行 进程 的 
操作 都 会 迫使 它 放 弃 CPU 的 拥有 权 ， 并 让 其 他 的 进程 运行 。 阻 塞 在 信号 量 上 的 进程 处 在 与 这 个 信号 量 
有 关 的 队列 中 。 由 于 时 间 延 迟 造 成 的 进程 阻塞 是 在 睡眠 进程 队列 中 。 其 他 阻塞 的 进程 则 不 在 任何 队列 
fi, ready 函数 将 阻塞 进程 移 到 准备 链表 中 。 

睡眠 进程 ”进程 调用 sleep 函数 来 延迟 一 段 指定 的 时 间 。 进 程 会 被 添加 到 睡眠 进程 链表 中 。 进 程 只 
能 睡眠 自己 。 

进程 队列 和 有 序 链表 ”Xinu 系统 有 一 个 单独 的 数据 结构 用 于 所 有 的 进程 链表 。 这 个 结构 包含 每 个 
链表 的 头 和 尾 的 表 项 。 其 中 第 一 个 NPROC 表 项 (0 ~ NPROC -1) 对 应 系统 中 的 NPROC 个 进程 ， 接 下 
来 的 表 项 是 成 对 分 配 的 ， 每 对 意味 着 一 个 链表 的 头 和 尾 。 

将 所 有 链表 的 头 和 尾 保 存在 一 个 数据 结构 中 的 优点 就 在 于 ， 人 队 、 出 队 、 测 试 是 否 为 空 ， 以 及 从 
中 间 删 除 〈 例 如 ， 当 进程 被 终止 时 ) 等 功能 将 只 被 一 小 部 分 函数 控制 (文件 queue. c 和 queue. h 中 ) 。 
空 队 列 的 头 和 尾 是 指向 对 方 的 。 因 此 测试 一 个 链表 是 否 为 空 非常 简单 。 链 表 可 以 是 顺序 的 ， 也 可 以 是 
先进 先 出 。 如 果 链 表 是 先进 先 出 的 ， 那么 每 个 表 项 的 键 是 可 以 忽略 的 。 

空 进程 ”进程 0 是 一 个 随时 准备 运行 或 者 正在 运行 的 空 进程 。 注 意 ， 进 程 0 从 来 不 会 运行 导致 它 
阻塞 的 代码 (例如 ， 它 不 能 等 待 信号 量 )。 因 为 空 进程 在 中 断 的 时 候 可 能 运行 ， 所 以 中 断代 码 也 不 能 
等 待 信号 量 。 当 系统 启动 的 时 候 ， 初 始 化 代码 创建 一 个 进程 来 执行 main 函数 ， 然 后 就 变 成 一 个 空 进程 
(执行 无 限 循环 ) 。 因 为 它 的 优先 级 比 其 他 进程 低 ， 所 以 空 进程 只 在 没有 其 他 进程 处 于 准备 状态 的 时 候 
才 会 运行 。 594 














* ul 


索引 中 的 页 码 为 英文 原 书页 码 ， 与 书 中 页 边 标 注 的 页 码 一 致 


pool creation ( 池 创 建 ) 165 


A pool initialization ( 池 初 始 化 ) 167 

activation record (活动 记录 ) ,8 release (释放 )，164 
addargs. c, 572 ring (9), 304 
additem in ex6. c. (在 ex6. c 中 的 添加 项 目 ) 25 bufinit in bufinit. c. ( bufinit. c 中 的 bufinit) 168 
address (地 址 ) bufpool. h, 162 

space (空间 ) 169 busy (dE) 

translation hardware (转换 硬件 ) 171 wait ( 等待)，22 
Address Resolution Protocol (地 址 解析 协议 ) ，334 waiting 〈 等 待 ) 113 
AG71xx Ethernet ( AG71xx 以 太 网 ) 305 byte【〈 字 节 ) ，35 
ag71xx h, 306 C 
allocRxBuffer c，319 
API (应 用 程序 编程 接口 ) 7 carriage return ( 回 车 ) 269 
Application Program Interface ( 应 用 程序 编程 接口 )，7，9 cbreak mode (cbreak 模式 ) 268, 269, 288 
ARP (地 址 解析 协议 ) 334 character (字符 ) ，35 

cache (缓存 ) ，336 character echo (字符 回 显 ) ，268 

request (GR), 336 chprio, 106 

response (WME), 336 chprio in chprio. c. ( chprio. c 中 的 chprio) , 107 
arp. c, 338 CLI (命令 行 界面) 6 
arp. h，337 clkcount in clkupdate. S. ( clkupdate. S 中 的 clkcount) 234 
arp. alloc in arp. c, 338 clkhandler in clkhandler. c. ( clkhandler. c 中 的 clkhandler) , 231 
arp in in arp. c, 338 clkinit in clkinit c (clkinit. c 中 的 clkinit) , 232 
arp init in arp. c, 338 clkupdate in clkupdate. S. ( clkupdate. S 中 的 clkupdate) , 234 
arp resolve in arp. c, 338 clock (时 钟 ) 
asynchronous (异步 ) 242 hardware (硬件 ) 216 

event handler (事件 处 理 程 序 ) 12 initialization (初始 化 ) ，531 

event paradigm (事件 范式 ) 216 interrupt (中 断 ) ，231 
Atheros AG71xx Ethernet, 305 tick (滴答 )，219 

B close (关闭 ) 243 
close in close. c. ( close. c 中 的 close) , 256 

backplane (主板 ) 32 cold start ( 冷 启动 ) 522 
backspace (EHB), 295 Command Line Interface (命令 行 接口 ) 6 
Basic Input Output System ( 基本 输入 输出 系统 ) 6 command-line syntax 〈 命令 行 语法 ) 552 
BIOS, 6 compare-and-swap ( 比较 和 交换 ) 125 
block (4), 372 concurrent (并 发 ) 
block-oriented device (面向 数据 块 的 设备 ) 371 execution (执行 ) 13, 15 
booting E2100L, 523 processing ( 处理) 13 
bootstrap (引导 程序 ) 522, 523 conf c, 259 
bss segment (bss Bt), 44, 142 conf. h, 247 
buffer (缓冲 区 ) 270 config program (config 程序 ) ，543 

allocation (分 配 ) 162 configuration (配置 ) 245, 541 


pool (35), 160 Configuration file (配置 文件 ) 543 


configuration static (静态 配置 ) 542 
cons2 in ex5. c. (ex5. c 中 的 cons2) 23 
CONSOLE, 7 
consume in ex4, c (ex4. c 中 的 consume), 21 
consumer (消费 者 ) 113 
context ( E FX), 499 
context switch (上下文 切 换 ) 67, 78 
control (控制 ) 243 
control in control. c. (control. c 中 的 control), 251 
block (4k), 273, 545 
tty driver (tty 驱动 ) 297 
control. c, 251 
cooked mode (cooked 模式 ) 268, 288 
coordination (协作 ) 111 
copyhandleer in start. S. ( start. S 中 的 copyhandleer) 524 
count-up timer ( 自 增 计时 器 ) 217 
counter (计数 器 ) ，42 
counting semaphore ( 计数 信号 量 ) 112 
cr，269 
create (创建 ) 17 
create in create. c (create. c 中 的 create), 102 
creation process (创建 进程 ) 101 
critical section (临界 区 )，24 
erlf, 269 
ctxsw in etxsw. S. ( ctxsw. S 中 的 ctxsw), 78 
current state ( 当前 状态 ) 72 


currpid, 74 


D 


d-block (d- 模 块 ) 414 
data (数据 ) 
area ( 区域)，413 
block (模块 ) 414, 415 
segment (E), 44, 142 
sheet (3€), 330 
date (日 期 ) 216 
deadlock ( 死 锁 ) 160 
default router (默认 路 由 器 ) 334 
deferred rescheduling (推迟 重新 调度 ) 83 
deferred rescheduling in sched_cnt c. ( sched, cntl. c 中 的 推 
述 重新 调度 ) ，84 
delay (延迟 )，218 
delta list 〈 增 量 链表 ) 220, 221 
dequeue in queue. c (queue. c 中 的 dequeue) 58 
descriptor (描述 符 ) 245 
design notes (设计 注解 ) ，590 
device (设备 ) 
descriptor (描述 符 ) 245, 250 
driver (了 驱动) 240, 267 
initialization (初始 化 ) 531 


索 51 - 353 


management (管理 ) 240 
switch table (转换 表 ) 245, 426, 545 
devtab in conf. c. ( conf. c 中 的 devtab) , 259 
devtab in conf. h (conf . h 中 的 devtab) , 247 
DHCP, 334 
dhcp. c, 364 
Direct Memory Access ( 直接 内 存 访问 ) 34, 303, 372 
directory ( Ask), 411, 413 
disable (禁止 ) 41, 93 
disjunctive wait (分 隔 等 待 ) 226 
disk (磁盘 ) 371 
driver (驱动 ) 371 
initialization (初始 化 ) 381 
partition (分 区 ) 413 
dispatch in dispatch. c. (dispatch. c 中 的 dispatch) , 205 
dispatcher (分 配器 ) 199 
DMA 〈 直 接 内 存 访问 ) 34, 303, 372 
driver (驱动 ) 267, 303 
dynamic (动态 的 ) 
device drivers (设备 驱动 ) 542 
file (文件 ) 413 
semaphore allocation (信和 号 量 分 配 ) 119 
Dynamic Host Configuration Protocol (动态 主机 配置 协 
议 ) 334 


E2100L, 31 
Echo (响应 ) 
Reply (ICMP) (应 答 (ICMP) ) ，335 
Request (ICMP) (请 求 (ICMP) ) 335 
echo ( 回 显 ) 268 
reply (IM), 362 
request (请 求 ) 362 
EMPTY, 54 
end-of-file (文件 结尾 ) 438 
enqueue in queue. c. ( queue. c 中 的 enqueue) 58 
echControl in ethControl. c. ( ethControl. c 中 的 ethControl) , 328 
ether. h, 310 
Ethernet (以 太 网 ) 303 
ethInit in ethInit c. ( ethInit. c 中 的 ethInit) , 314 
ethInterrupt in ethInterrupt. c. ( ethInterrupt. c 中 的 ethInter- 
rupt), 324 
ethRead in ethRead. c ( ethRead. c 中 的 ethRead) , 320 
ethWrite in ethWrite, c (ethWrite. c 中 的 ethWrite) , 322 
event paradigm (事件 范式 ) 216 
exl. c, 7 
ex2. c, 16 
ex3. c, 18 
ex4. c, 21 
ex5. c, 23 


354 + & 8| 


ex6. c, 25 granularity of preemption (抢占 粒度 ) 218 
ex7. c，588 H 
exception (异常 ) ，40. 535 
exception handling (异常 处 理 ) ，535 heap (35), 143 
exit (退出 ) 98 heavyweight process (重量 级 进程 ) 140 
exit of a process (进程 退出 ) 19 hierarchy (层次 结构 ) 4 
F | 
fetch 〈 获 取 ) 372 i-block (i 块 ) 414 
fetch-store paradigm (获取 -存储 范式 ) 34 VO (输入 /输出 ) 195, 240 
FIFO (先进 先 出 ) ，57 interface (接口 ) 241 
file (文件 ) 411 redirection ( 重 定 位 ) 551, 575 
data block (数据 块 ) 414 ib2disp in lfilesys. h (lfilesys. h 中 的 ib2disp) 416 
index block (索引 块 ) 414 ib2sect in lfilesys. h (Ifilesys. h 中 的 ib2sect) , 416 
local (本 地 的 ) 413 IBIS，499 
name (名 称 ) 412, 497, 499 ICMP, 335, 362 
pseudo- device ( 伪 设 备 ) 426 iemp. in, 362 
system (R), 411 icmp_init, 362 
system organization (系统 组 织 ) 415 icmp_out ，362 
file name (文件 名 ) iemp_recv，362 
UNIX, 499 icmp. register, 362 
firmware (固件 ) 6 icmp. release, 362 
first-fit memory allocation ( 最 先 适 配 内 存 分 配 ) 148 icmp_send，362 
firstid in queue. h (queue. h 中 的 firstid) ，53 ID (标识 符 ) 
firstkey in queue. h ( queue. h 中 的 firstkey) ，53 buffer pool (缓冲 区 池 ) 161 
flow control ( 流 控 制 ) 268 process ( 进程 ) ，68 
folder (文件 夹 ) 411 identifier (标识 符 ) 183 
fragmentation of memory ( 内存 碎 片 ) 145 include file (include 文件 ) 7 
frame ( WHE), 172 index (索引 ) 
free memory (空闲 内 存 ) 146 area (RR), 413 
freebuf in freebuf. c ( freebuf. c 中 的 freebuf) 164 block (Jt), 414, 415, 419 
freemem in freemem. c. ( freemem. c 中 的 freemem) , 154 block operations ( 块 操作 ) , 420 
freestk in memory. h (memory. h 中 的 freestk) , 148 mechanism (〈 机制) 413 
G init, 243 
init in init. c (init c 中 的 init) ，254 
gcc, 583 Initial Program Load (Initial 程序 加 载 ) 522 
general-purpose register (通用 寄存 器 ) 33 initialization (初始 化 ) 521 
getbuf in getbuf. c. ( getbuf. c 中 的 getbuf) , 163 initialize. c, 527 
getfirst in getitem. c. ( getitem. c 中 的 getfirst) , 56 input (输入 ) 195, 239 
getitem in getitem. c ( getitem. c 中 的 getitem) , 56 insert in insert. c. ( insert. c 中 的 insert) , 61 
getlast in getitem. c ( getitem. c 中 的 getlast) , 56 instruction pointer (指令 指针 ) ，196 
getlocalip in dhcp. c. (dhep. c 中 的 getlocalip) , 364 intdispatch in intdispatch. S. ( intdispatch. S 中 的 intdispatch) , 
getmem in getmem. c ( getmem. c 中 的 getmem) , 149 202 
getpid, 20, 106 inter- process communication ( 进程 间 通 信 ) , 179 
getpid in getpid. c ( getpid. c 中 的 getpid) , 106 interface abstraction (接口 抽象 ) 241 
getprio, 106 Internet (互联 网 ) 
getprio in getprio. e ( getprio. c 中 的 getprio) ，106 Control Message Protocol (控制 报 文 协议 ) 335, 362 
gelstk in getstk. c ( getstk. c 中 的 getstk) 152 Protocol (协议 ) 334 
global clock (全 局 时 钟 ) 174 Service Provider ( 服务 提供 者 ) 523 


Gnu C Compiler (Gnu C 编译 器 ) 583 protocols (协议 ) ，333 


interrupt ( 中断 ) 40, 93, 195 

dispatcher (分 配器 ) 199 

handler (处 理 程序 ) 199, 200 

mask (PERK), 40 

multiplexing (多 路 复 用 ) ，199 

request ( 请求) 197 

tty，283 

vector (fuji), 197 
interrupt-driven VO ( 中断 驱动 的 1/ 0), 43 
interval timer ( 间隔 计时 器 ) , 217 
ioerr, 257 
ioerr in ioerr. c. (ioerr c 中 的 ioerr) , 258 
ionull, 257 
ionull in ionull c (ionull c 中 的 ionull) , 258 
IP (互联 网 协议 )，334 
ipcksum in netin. c. (netin. e 中 的 ipcksum) , 348 
IPL (初始 化 装载 ) 522 
IRQ (PERR), 197 
isbadpid in process. h ( process. h 中 的 isbadpid) , 70 
isbadport in ports. h ( ports. h 中 的 isbadport) 181 
isbadsem in semaphore. h (semaphore. h 中 的 isbadsem) , 116 
isempty in queue. h (queue. h 中 的 isempty) , 53 
ISP (网 络 服务 提供 者 ) 523 


K 


kemel (ARK), 1, 2 

mode (模式 ) ，45 

space (空间 ) 35 
kill, 20 
kill in kill e (kill c 中 的 kill), 99 
killing a process 〈 杀 死 一 个 进程 ) 98 
kprintf, 43 
kpute, 43, 584 


L 


last- fit memory allocation (最 后 适 配 的 内 存 分 配 ) 151 
last- write semantics (最 后 写 入 语义 ) 374 

lastkey in queue. h (queue. h 中 的 lastkey) , 53 

lexan. c, 557 

If, 269 

Ifdballoc in lfdballoc. ¢ (Ifdballoc. c 中 的 Ifdballoc) , 424 
Ifdbfree in lfdbfree. c. ( Ifdbfree. c 中 的 Ifdbfree) , 425 
Ifflush in Ifflush. c. ( Ifflush. c 中 的 flush), 436 
Ifgetmode in Ifgetmode. c ( Ifgetmode. c 中 的 Ifgetmode) , 433 
Ifiballoc in Ifiballoc. c. (Ifiballoc. c 中 的 Ifiballoc) , 423 
Ifibelear in lfibelear. c. ( Ifibclear. c 中 的 Ifibclear) , 420 
Ifibget in lfibget. c. ( Ifibget. c 中 的 Ifibget) , 421 

Ifiblk, 415 

Ifibput in Ifibput. c. ( Ifibput. c 中 的 Ifibput) , 422 
Ifilesys. h, 416 


* 引 * 


IflClose in IflClose. c. ( IflClose. c 中 的 IflClose) , 435 
IflGetc in IflGete. c. ( IflGetc. c 中 的 IflGete) , 440 

IflInit in lflInit c. (IHflInit. c 中 的 JInit) , 449 

IflPute in lflPutc. c. ( lflPutc. c 中 的 IflPute), 442 

IflRead in IflRead. c ( IflRead. c 中 的 IflRead) , 438 
IflSeek in IflSeek. c. ( IflSeek. c 中 的 IflSeek) , 439 

IflWrite in IfIWrite. c. (1flWrite. c 中 的 IlWrite) , 437 
Ifscreate in lfscreate. c. ( Ifscreate. c 中 的 Ifscreate) , 452 
Ifsetup in Ifsetup. c. ( Ifsetup. c 中 的 Ifsetup) , 444 

lfslnit in lfslnit. c. ( Ifslnit. c 中 的 IfsInit) , 448 

IfsOpen in lfsOpen. c. ( IfsOpen. c 中 的 IfsOpen) , 428 
Iftruncate in Iftruncate. c. ( Iftruncate. c 中 的 Iftruncate) , 450 
lightweight process abstraction ( 轻 量 级 的 进程 抽象 ) 140 
limit (限制 ) ，42 

linefeed (换行 ) 269 

linked list (链表 ) ，52 

Linksys，31 

loadb, 523 

local file (本 地 文件 ) 413 

lower half (下 半 部 ) 240, 269 


M 


main in exl. c (exl. c 中 的 main), 7 
main in ex2. c (ex2. c 中 的 main), 16 
main in ex3. c (ex3. c 中 的 main), 18 
main in ex4. c (ex4. c 中 的 main), 21 
main in ex5. c (ex5. c 中 的 main), 23 
main program ( 主 程序 ) 15 
mask (jf), 40 
mdelay in ethInit. c, 314 
memlist, 146 
memory ( 内存) 
allocation (分 配 ) ，160 
fragmentation (分 片 ) ，145 
management ( 管理) ，139，159 
partitioning (分 区 ) 160 
segment ( 段 ) 44 
memory-mapped I/O (内存 映射 的 LO)，34 
memory. h, 148 
memzero in start. S, 524 
message ( 报 文 ) 
passing (传递 ) 129, 131, 179 
sending (发 送 ) 132 
sending to a port (发 送 到 一 个 端口 ) 184 
microkernel ( 微 内 核 ) 2, 588 
minor device number (次 设备 号 ) 546 
mkbufpool in mkbufpool. ¢ ( mkbufpool. c 中 的 mkbufpool ) ，546 
mode (模式 ) ，45 
mode of tty (tty 的 模式 ) 268 
monitor ( 显示 器 ) 1 


355 


356 + X 5l 


mount in mount. c. ( mount. c 中 的 mount), 503 
MS_DOS, 499 

multi-level hierarchy (多 层次 结构 ) 4 
MULTICS 〈 符 号 常量 ) 174 

multiprogramming ( 多 道 程序 设计 )，14 
mutual exclusion ( 互 斥 ), 24, 112 


N 


name mapping ( 名 字 映 射 ) 500 
name. h, 502 
namespace (名 字 空 间 ) 497, 498 

abstraction (抽象 ) 497 

initialization (初始 化 ) 510 
NAMESPACE device ( NAMESPACE 设备 ) 502 
naminit in naminit c. ( naminit. c 中 的 naminit) , 511 
nammap in nammap. c. ( nammap. c 中 的 nammap) 505 
namopen in namopen. c. ( namopen. c 中 的 namopen), 510 
NDEVS, 545 
net. h, 346 
netin in netin. c. (netin. c 中 的 netin), 348 
network byte order ( 网络 字 节 序 ) 472 
NEWLINE, 269 
newpid in create. c. (create. c 中 的 newpid), 102 
newqueue in newqueue. c. ( newqueue. c 中 的 newqueue) , 63 
newsem in semcreate. c. ( semcreate. c 中 的 newsem) , 120 
non-selfreferential ( 非 自 引用 ) , 600 
nonempty in queue. h (queue. h 中 的 nonempty) , 53 
nonvolatile storage ( 非 易 失 存储 器 ) 371 
NPROC, 51, 68 
NQENT, 54 
null process ( 空 进程 ) 82 
nulluser in initialize. c. (initialize. c 中 的 nulluser) , 527 


O 


open (打开 ) 243, 509 

open in open. c. (open. c 中 的 open), 256 
open-read-write-close (打开 - 读 - 写 -关闭 ) 243 
open. c, 256 

operating system (操作 系统 ) 1 

output (输出 ) 195, 239 


paging (分 页 ) 169 
panic，186 
panic. c, 537 
paradox ( 悖 论 ) 

参见 non- selfreferential 
partitioning memory ( 分 区 内 存 ) 160 
path name (路 径 名 ) 499 


pattern string (模式 字符 串 ) 501 
physical address space (物理 地 址 空间 ) ，169 
ping，362 
pipe (管道 ) 579 
polled VO ( 轮 询 YO), 27, 43, 584 
polling ( 轮 询 ) 130 
pool identifier ( 池 ID), 161 
port (H401), 183 
creation ( 创建 ) 183 
deletion (删除 ) 188 
number (数量 ) 334 
reception (接收 ) 186 
reset ( 重 置 ) ，188 
table initialization ( 表 初 始 化 ) 181 
ports (31), 179 
ports. h, 181 
preemption (抢占 ) 218 
preemption granularity (抢占 颗粒 度 ) 218 
prefix. (前 级 ) 
pattem (模式 ) ，501 
property ( 属性) 499 
priority (优先 级 ) 60 
inversion (倒置 )，114 
queue (队列 ) ，60 
process (进程 ) 14, 50, 531 
ID (ID), 17, 50, 68, 106 
参见 thread 
blocking (fH3E), 23 
coordination (协调 ) 111 
creation (££) , 17, 101 
execution (运行 ) 17 
exit (退出 ) 19, 98, 101 
heavyweight (重量 级 ) 140 
management ( 管理 ) 5 
priority (优先 级 ) 60, 106 
ready state (准备 状态 ) 72 
state ( 状态) 71, 72, 223 
synchronization (同步 ) 111 
table ( 表 ) 68 
termination (终止 ) 20, 98 
waiting (等 待 ) 115 
Process (Linux) (进程 ) ，15 
process. h, 70 
processor clock (处 理 器 时 钟 ) 216 
proctab, 68 
prod2 in ex5. c (ex5. c 中 的 prod2), 23 
produce in ex4. c (ex4. c 中 的 produce), 21 
producer (生产 者 ) 113 
producer- consumer (生产 者 — 消 费 者 模型 ) 22, 113, 272 
program counter (程序 计数 器 ) 196 


programmable interrupt address (可 编程 中 断 地 址 ) 198 
protocol (协议 ) 333 

protocol stack (协议 栈 ) 333 

pseudo call ( 人 擅 调用 ) 101 

pseudo- device ( 伪 设 备 ) 426 

ptclear in ptelear. c. (ptclear. c 中 的 ptelear), 190 
ptereate in pterete. c ( pterete. c 中 的 ptereate) , 183 
ptdelete in ptdelete. c. ( ptdelete. c 中 的 ptdelete) , 188 
ptinit in ptinit c ( ptinit. c 中 的 ptinit) , 182 

ptrecv in ptrecv. c. ( ptrecv. c 中 的 ptrecv) , 186 
ptreset in ptreset. c ( ptreset. c 中 的 ptreset) , 189 
ptsend in ptsend. c. ( ptsend. c 中 的 ptsend) , 184 


putc, 7, 243 

pute in pute. c. (pute. c 中 的 pute) , 252 
Q 

queue table (队列 表 ) 52 

queue. c, 58 

queue. h, 53 
R 


RAM (随机 存 取 存 储 器 ) 140 

Random Access Memory (随机 存 取 存 储 器 ) 140 
random semaphore policy (随机 信号 量 策略 ) 114 
random-access device (随机 存 取 设备 ) 371 

raw mode (raw 模式 ) 168, 169, 188 

rdisksys. h, 376 
rdsbufalloc in 
rdsbufalloc) , 399 
rdsClose in rdsClose. c. ( rdsClose. c 中 的 rdsClose) , 400 
rdscomm in rdscomm. c. ( rdscomm. c 中 的 rdscomm) , 386 
rdsControl — in ( rdsControLc 中 的 
rdsControl) , 396 

rdsInit in rdsInit. c. ( rdsInit. c 中 的 rdsInit) , 381 

rdsOpen in rdsOpen. c. ( rdsOpen. c 中 的 rdsOpen) , 384 

中 的 


rdsbufalloc. ce ( rdsbufalloc.c 中 的 


rdsControl. c 


rdsprocess in rdsprocess.c ( rdsprocess.¢ 
rdsprocess) 402 
rdsRead in rdsRead. c. ( rdsRead. c 中 的 rdsRead) , 392 
rdsWrite in rdsWrite. c. ( rdsWrite. c 中 的 rdsWrite) , 289 
read, 243 
read in read. c (read. c 中 的 read), 250 
read-only address (只 读 地 址 ) 42 
Read-Only Memory ( 只 读 内 存 ) 140 
read. c，250 
ready in ready. c (ready. c 中 的 ready), 83 
list (链表 ) 73 
state (状态 ) 72 
ready. c, 83 
real address space (实地 址 空间 ) ，169 


real-time (实时 ) 215 


索 引 + 357 


clock (时 钟 ) 216 

system (系统 ) 14 
receive，131 
receive in receive. c. (receive. c 中 的 receive), 134 
receving (接收 ) 

from a port (从 一 个 端口 ) 186 

state ( 状态) 131 
recvclr，131 
recvelr in reevelr. e. (recvclr c 中 的 reevelr) , 135 
recvtime in recvtime. c. ( recvtime. c 中 的 reevtime) , 228 
redirection ( 重 定向 ) , 575 
redireciotn of I/O (1/0 重 定向 ) 551 
Reduced Instruction Set Computer (精简 指令 集 ) 33 
reference count (引用 计数 ) 255 
register ( 寄存 器 ) 33 
relative pointer ( 相对 指针 ) 51 
remote files (远程 文件 ) 459 
replacement string ( 替换 字符 串 ) 501 
request queue. ( 请求 队列 ) 270 
resched in resched. c ( resched. c 中 的 resched) 74 
RESCHED_ YES and RESCHED_NO (RESCHED_ YES 和 

RESCHED_NO), 82 
resident page ( 常 驻 页 面 ) 169 
restore (恢复 ) 41, 93 
resume (恢复 ) 17 
resume in resume. c. ( resume. c 中 的 resume) 92 
rfilesys. h, 461 
rflClose in rflClose. c. ( rflClose. c 中 的 rflClose) , 479 
rflGete in rflGetc. c ( rflGetc. c 中 的 rflGetc) , 486 
rflInit in tflInit. e ( tfIInit. c 中 的 rflInit) , 492 
rflPute in rflPutc. c. ( rflPutc. c 中 的 rflPutc) , 487 
rflRead in rflRead. c. ( rflRead. c 中 的 rflRead) , 480 
rflSeek in rflSeek. c ( rflSeek. c 中 的 rflSeek) , 485 
rflWrite in rflWrite. c. (o rflWrite. c 中 的 rflWrite) , 482 
rfscomm in rfscomm. c ( rfscomm. c 中 的 rfscomm) , 468 
rfsControl in tfsCotrol. c. ( tfsCotrol. c 中 的 rfsControl) , 488 
rfsgetmode in rfsgetmode. c ( rfsgetmode. c 中 的 rfsgetmode ) , 
477 

rfsInit in rfsInit. c. ( rfsInit. c 中 的 rfsInit) 491 
rfsndmsg in rfsndmsg. c. ( rfsndmsg. c 中 的 rfsndmsg) , 471 
rfsOpen in rfsOpen. ¢ ( rfsOpen. c 中 的 rfsOpen) , 474 
ring of buffers (缓冲 区 环 ) 304 
RISC (精简 指令 集 ) 33 
ROM (只 读 内 存 ) ，140 
round-robin ( 轮 询 ) 73 
roundmb in memory. h, 148 
run-time stack (运行 时 栈 ) 38 


S 


sched. h, 84 


358 - & 引 


scheduler, 72, 74 start in start. S (start. S 中 的 start), 524 
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